Top
序文
免責事項
ライセンス
この資料について
1
作業環境の準備
1.1
鍵の作成
1.2
ssh 接続の設定
1.3
ssh 接続の確認
1.4
オプション: VS Codeの使用
1.5
Treasure Data へのアクセス
2
全体の流れ
2.1
本稿で扱う内容
2.2
機械学習のワークフロー
2.3
用語と範囲
2.4
本稿で使用する一般用語
2.4.1
サンプルとデータセット
2.4.2
モデルと学習器
2.4.3
母集団と一般化
本稿で使用しているライブラリのバージョン
数式の凡例
3
SQL の基本事項
3.1
はじめに
3.2
下準備
3.3
行と列の選択
3.3.1
集約関数とグループ化
3.4
並び替え
3.5
テーブルの結合
3.6
テーブル結合の考え方
3.7
内部結合と外部結合
3.7.1
COALESCE()
関数
3.8
入れ子状のクエリ
3.9
ロングとワイド
4
Treasure Data の扱い方
5
Treasure Data からのデータ取得
5.1
TD の高速化
5.2
TD を使った操作の効率化
5.3
TD でよく参照すると思われる情報
6
Pandas の操作
6.1
Pandas とは
6.2
参照透過性のある書き方
6.3
ピボット
7
データの見方
7.1
どのようなツールでグラフを描くべきか
7.2
最もシンプルなグラフ
7.3
より複雑なデータを把握するには
7.4
モジュールごとの特徴
7.5
どのようなグラフがあるか
7.5.1
箱ひげ図
7.5.2
ヒストグラム
7.5.3
散布図
7.5.4
2変数の視覚化
8
scikit-learnを使った機械学習
8.1
処理フローのコンポネント化
8.2
モデル評価の書き方
8.3
ハイパーパラメータのチューニング
8.4
Stateful/less な変換器
8.5
モデルの保存
8.6
拡張モジュール
9
分類モデルの評価
9.1
対数損失と正規化
9.2
事後診断と改善のヒント
9.2.1
予測確率のユニークカウント
9.2.2
予測確率のヒストグラム
9.2.3
複数種類の評価指標の比較
9.2.4
分類モデルの残差診断
9.2.5
時系列データの残差診断
10
機械学習の一般理論
10.1
どの分類モデルを選ぶべきか
10.1.1
分類モデルの数学的な定式化
10.1.2
ロジスティック回帰
10.1.3
ロジスティック回帰と正則化
10.1.4
決定木
10.1.5
その他の基本的な分類器
10.1.6
アンサンブル学習
10.1.7
ランダムフォレストとバギング
10.1.8
ブースティング
10.2
どの最適化アルゴリズムを選ぶべきか
11
機械学習と数理最適化
11.1
数理最適化の基礎知識
11.1.1
ニュートン法
11.1.2
SAGA
11.2
バッチ学習とオンライン学習
11.2.1
SGD と代表的な派生アルゴリズム
11.2.2
モメンタム法
11.2.3
AdaGrad
11.2.4
SGD のバリエーションからどれを選ぶべきか
12
モデルの過学習とどう向き合うか
12.1
過学習とはなにか
12.2
交差検証
12.3
交差検証のよくある誤解
12.3.1
補足: 情報量規準
12.4
ハイパーパラメータの探索方法
13
特徴量と前処理をどう選ぶべきか
13.1
正規化と標準化
13.2
数値変数の分布を変える
13.3
カテゴリカル変数の扱い
13.3.1
実装上の注意
13.4
次元削減
13.4.1
Feature Hashing
13.4.2
主成分分析 (PCA)
14
レポートの提出方法
14.1
Jupyter の使用
14.2
Jupyter 以外の使用
参考文献一覧
機械学習・データ分析インターン向け資料 ver. 0.2
1.5
Treasure Data へのアクセス
このセクションは一般公開版ではご覧になれません