2.1 本稿で扱う内容

本稿はインターン向けの資料です. インターンでは, 実際の業務に使用するデータを使い, 主に機械学習の教師あり分類問題を使ったタスクに取り組んでもらいます. それらは既に紹介したような作業フローで行われるため, 各ステップでの作業を, いろいろな言語やフレームワークを使った具体的なコードとともに解説しています. よって, 機械学習に関しては主に分類問題に関する話題のみ取り扱っています. それ以外のジャンルの有益な話を詰め込むことは (残念ながら) していません.

scikit-learn を使った機械学習のチュートリアルとして, Géron (2017)scikit-learnTensorFlow による実践機械学習』があります. この本の2章で紹介されるものは本稿で提案する機械学習のワークフローともよく似ており, 少ないページ数で実用上重要なヒントが詰まっています (まだ読んでないならぜひ読んでください). 一方で, 今回のタスクは機械学習でいう分類のタスクに近いですが, この本の2章は回帰の問題です. また, あくまで初心者向けであり, 機械学習を応用的に使いこなすための一般理論や, より難しい問題に挑戦する際の手がかりに乏しいと言えます. また, 最近邦訳の出版された Lakshmanan, Robinson, and Munn (2020) は, より応用的なテクニックを紹介していると言えますが, 一方でこの本はタイトルに「デザインパターン」とあるように, 応用事例や使用するフレームワークを限定した話題が多いです.

逆に Hastie, Tibshriani, and Friedman (2009) 『統計的学習の基礎』 は機械学習の原理について, 衒学的になりすぎないようエッセンスを巧妙に解説しています. 杉山 (2013) 『イラストで学ぶ機械学習』 はより簡易な説明で内容も限定されていますが, やはり良い教科書です. しかしながらこれらは時間をかけて咀嚼するタイプの教科書であり, 短期間に内容を全て理解するのは難しいです. 実装に関する記載もあまりありません.

インターン向け資料としては, 実装に役に立つ情報も欲しいですが, 一方で根本的な理論の理解を深めることでいろいろな課題に対する応用能力を身につけて欲しいとも思っています. しかし欲張って両方を要求するのは現実的ではありませんでした. そこで資料作成にあたっての方針として, 本稿は, 実践面を重視し, かつ比較的内容の簡単な Géron (2017) の難易度をたたき台にして, この本で書かれていないこと, 説明不十分なことも補うような内容にしています. 特に 10 章ではこの本で不足している, 応用をきかせるための般理論に関していくつか紹介しています. しかし, Hastie, Tibshriani, and Friedman (2009) ほど抽象化させすぎないようにしました. 加えて, 実践の場で必要になる機械学習いがいの一般的な数値計算やアルゴリズムのテクニックに関する話もいくつか紹介しています. そのぶん, 本稿は全体として機械学習の予備知識が全くない読者は想定していません. また, XGBoost の関数の構文はこうだ, Light GBM の関数の構文はこうだ, この引数にはこういう意味がある, といった機械学習フレームワークの網羅的な関数カタログとしても機能しません. たしかにそれらは実装に関する情報ではありますが, しかし公式リファレンスが一番充実した資料になっているはずです. そういった優れた外部資料が存在する場合は, 適宜紹介しています. 適宜わからないことは自分で調べてください. もちろん質問は歓迎します.

これは決して手抜きではありません. 先人の優れた書籍や資料に対してコピペレポートのように出典を明記せず無断転載したり, 本質はそのままに語調を少し変えただけで記載するのは失礼です. そして, これを読む方には1冊の資料を読んで満足するのではなく, 関心のあること, 疑問に思ったことは自分で調べる習慣を身につけてほしいという意図があります.

参考文献一覧

Géron, Aurélien. 2017. Hands-on Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O’Reilly Media, Inc.
Hastie, Trevor, Robert Tibshriani, and Jerome Friedman. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second. Springer.
Lakshmanan, Valliappa, Sara Robinson, and Michael Munn. 2020. Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and MLOps. First edition. Beijing Boston Farnham: O’Reilly.
杉山将. 2013. イラストで学ぶ機械学習: 最小二乗法による識別モデル学習を中心に. 東京: 講談社.