7.4 モジュールごとの特徴
以上から, plotnine
は複数の変数でグループ分けすることになっても比較的簡単に対処できますが, seaborn
では簡単に対処できるのは1-2変数までで, それ以上は面倒になります. 一方で, seaborn.pairplot()
はデータフレームの全変数の散布図行列 (とヒストグラム) や箱ひげ図など, 一度に複数の変数に対してグラフを描きたい場合はシンプルになります.
また, plotnine
の弱点として, matplitlib
に比べ使用者が少ないことが挙げられます. しかしこのライブラリは R言語の ggplot2 パッケージ と非常によく似ているため, わからないことは ggplot2 で検索すると解決できるかもしれません. plotnine
はグラフの種類に関係なく, 入力データの形式と構文を統一し, かつグラフのセマンティクスとデザインやスタイルを切り離した構文にしているのが特徴です.20
基本的には, ggplot2()
で入力データであるデータフレームと, x軸/y軸, 色分けなどにどの変数を参照するかを aes()
で与え, その後に geom_
や stat_
で始まる関数群で描くグラフの種類を決定し, labs()
で軸のタイトルやグラフのタイトルを書き込み, scale_
, theme*
でグラフの軸スケールやテーマを指定します. +
を使うことで, 散布図の上に線グラフを重ねることもできます.
参考文献一覧
ggplot2 に基づいたデータの視覚化の教科書として Healy (2018) というものがあります. これは今年になって邦訳が出版されています. また, この教科書の作例の多くを
plotnine
で書き換えたチュートリアル資料を, 私が個人的に作成し, https://ill-identified.hatenablog.com/entry/2021/08/06/200859 にて公開しています.↩︎