6.1 Pandas とは
pandas
は DataFrame
クラスによってSQLのようなテーブル状のデータを処理するデータ処理用のツールです. ここでは ver. 1.1.0 を前提として説明します. 公式ドキュメントは https://pandas.pydata.org/docs/ で読むことができます.
今回のインターンではデータの全体的な特徴を調べたり, 特徴量の作成をしたりするという作業を主に pandas
を使って行う想定で説明します. しかし処理によっては TD で済ませておいたほうが速い場合もあるので, 臨機応変に対処してください.
pandas
を全く触ったことがない, 操作がほとんどわからないという場合, 私の作成した Pandas チートシートの日本語訳があります. もちろんオリジナルを見ても問題ありません. ただし, これらは2年以上更新されていないため古くなっている箇所もあります (これは公式チートシートも同様です). 以降は pandas
の網羅的なマニュアルとしてではなく, 効率的に書くためのヒントをいくつか紹介していきます.
では, pandas
(と numpy
) を読み込みましょう.