12.3 交差検証のよくある誤解

これらの方法で計算した誤差は「全てのデータ」で評価した期待値ではないため, 正確には汎化誤差ではありません. そのためテスト誤差とか out-of-sample 誤差, あるいはCV 誤差などと表現されることも多いです. つまり, あくまでこれらは汎化誤差を間接的に知るための推定にすぎません. 推定ということは計算されたテスト誤差じたいにもまた誤差があるということなので, テスト誤差の分散を確認することも重要です. また, その値は検証データまたはテストデータを用いて計算されています. よって, ある方法でCV誤差を計算する, また別の方法を試し, CV誤差の最小値を更新するまで何度も微調整を繰り返す, ということをしていると, 今度はテストデータに対する過学習が発生してしまいます. 今回のインターンで予測データを作る目的は, 今あるデータではなく将来のデータに対してうまく予測することです. また, K-分割CVやLOOCVが常に良いとも限りません.

交差検証による誤差が実際の汎化誤差と比べどの程度差があるのかや, 過信した際に陥る落とし穴について, Hastie, Tibshriani, and Friedman (2009) の7章で様々な事例が書かれており参考になります.

交差検証は計算量が多いですが, いくつかの学習アルゴリズムでは計算量を削減するトリックが知られています. 8 章でも言及したように, 例えばロジスティック回帰ならば sklearn.linear_model.LogisticRegressionCV は, 正則化パラメータのグリッドサーチと交差検証の計算に特化した実装です.

12.3.1 補足: 情報量規準

交差検証はアイディアとして分かりやすいですが, 計算量が多いという問題があります. 理論的に導出された汎化誤差の推定値として情報量規準 (information Criterion) と呼ばれるものがあります. 有名な赤池の情報量規準 (AIC) は線形モデルを前提とした情報量規準で, 特異モデルなどにも広く適用できる (aka 「渡辺の」) 情報量規準 (Widely-adapted/Watanabe’s —; WAIC) (Watanabe 2010) や, いくつかの場面でより頑健な PSIS-LOO (Vehtari, Gelman, and Gabry 2017) は LOOCV による誤差を近似できる推定方法で, さまざまなモデルに対して適用可能です. これらの多くは交差検証よりも計算量が少ないですが, 一方で尤度の計算が必要なため, 決定木のようなモデルでは計算が難しいという問題があります.

参考文献一覧

Hastie, Trevor, Robert Tibshriani, and Jerome Friedman. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second. Springer.
Vehtari, Aki, Andrew Gelman, and Jonah Gabry. 2017. “Practical Bayesian Model Evaluation Using Leave-One-Out Cross-Validation and WAIC.” Statistics and Computing 27 (5): 1413–32. https://doi.org/10.1007/s11222-016-9696-4.
Watanabe, Sumio. 2010. “Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory.” Journal of Machine Learning Research 11 (April): 3571–94.