6.1 Pandas とは

pandasDataFrame クラスによってSQLのようなテーブル状のデータを処理するデータ処理用のツールです. ここでは ver. 1.1.0 を前提として説明します. 公式ドキュメントは https://pandas.pydata.org/docs/ で読むことができます.

今回のインターンではデータの全体的な特徴を調べたり, 特徴量の作成をしたりするという作業を主に pandas を使って行う想定で説明します. しかし処理によっては TD で済ませておいたほうが速い場合もあるので, 臨機応変に対処してください.

pandas を全く触ったことがない, 操作がほとんどわからないという場合, 私の作成した Pandas チートシートの日本語訳があります. もちろんオリジナルを見ても問題ありません. ただし, これらは2年以上更新されていないため古くなっている箇所もあります (これは公式チートシートも同様です). 以降は pandas の網羅的なマニュアルとしてではなく, 効率的に書くためのヒントをいくつか紹介していきます.

では, pandas (と numpy) を読み込みましょう.

import pandas as pd
import numpy as np