7.4 モジュールごとの特徴

以上から, plotnine は複数の変数でグループ分けすることになっても比較的簡単に対処できますが, seaborn では簡単に対処できるのは1-2変数までで, それ以上は面倒になります. 一方で, seaborn.pairplot() はデータフレームの全変数の散布図行列 (とヒストグラム) や箱ひげ図など, 一度に複数の変数に対してグラフを描きたい場合はシンプルになります.

また, plotnine の弱点として, matplitlib に比べ使用者が少ないことが挙げられます. しかしこのライブラリは R言語の ggplot2 パッケージ と非常によく似ているため, わからないことは ggplot2 で検索すると解決できるかもしれません. plotnine はグラフの種類に関係なく, 入力データの形式と構文を統一し, かつグラフのセマンティクスとデザインやスタイルを切り離した構文にしているのが特徴です.20

基本的には, ggplot2() で入力データであるデータフレームと, x軸/y軸, 色分けなどにどの変数を参照するかを aes() で与え, その後に geom_stat_ で始まる関数群で描くグラフの種類を決定し, labs() で軸のタイトルやグラフのタイトルを書き込み, scale_, theme* でグラフの軸スケールやテーマを指定します. + を使うことで, 散布図の上に線グラフを重ねることもできます.

参考文献一覧

Healy, Kieran. 2018. Data Visualization: A Practical Introduction. Princeton, NJ: Princeton University Press.

  1. ggplot2 に基づいたデータの視覚化の教科書として Healy (2018) というものがあります. これは今年になって邦訳が出版されています. また, この教科書の作例の多くを plotnine で書き換えたチュートリアル資料を, 私が個人的に作成し, https://ill-identified.hatenablog.com/entry/2021/08/06/200859 にて公開しています.↩︎