この資料について

本稿はファンコミュニケーションズの機械学習・データ分析エンジニアの学生向けインターンシップで使用されていた資料の一部を改変し, 一般向けに公開したものです. インターン資料は3年ほど前から存在し, 刻々と改変され — 一時は200ページを超える内容でしたが, 内容が初歩的・あるいは逆に際限なく広がり過ぎるため省略されたり, インターン参加者のレベルに合わせたり, など毎年のように内容が大きく変化しました — 本稿は2020年に改めて書き直されたバージョンです. インターンは教師あり分類学習を使ったCTR予測が主なタスクでした. よって本稿で解説する内容も, 機械学習の中でも分類問題に限定した内容で, 回帰問題への対処法はほぼ解説していません. 具体的にどういう意図で何を教えるかは本文中でも都度言及されますが, おおまかな内容として, 以下の解説を行っています.

SQL (HiveQLおよびPresto) の基本的なクエリの書き方
pandas を使用したデータの加工についての基礎
主に plotnine を利用したグラフの作成方法についての基礎
scikit-learn や関連モジュールを使用した機械学習モデルの構築方法
機械学習を適切に, 効率よく使うための簡単な理論解説

インターンでは学生の素質を見極めたいため, 私は扱う内容にある程度のポリシーを設けていました. 「ググってすぐわかることは極力書かない」という原則です. 全編通して未公開あるいは最新の研究成果を紹介しているというわけではありませんし, チュートリアル的な側面もありますが, 機械学習ライブラリの公式マニュアルに書いてあるような内容は極力書かないようにしています — 自分で信頼できそうな情報を探し出すことも重要な能力であり, また, インターネットですでに公開されているレベルの情報をあえてここに書き直す必要はないと感じます. 一般公開されている内容の転載や再掲はほとんどしていません. それらは都度, 参照すべき有用な資料の紹介にとどめています (などと書いていますがインターン用資料としては大掛かりになりすぎるので当初の構想より大幅にスケールダウンしています).