2.3 用語と範囲

機械学習のアルゴリズムは, 大きく分けて教師あり学習 (supervised learning) と教師なし学習 (non-supervised learning) に大別されます. 教師あり学習は, 回帰のように目的変数を元に重みベクトルを決定するアルゴリズムのことです. いわば1つ1つの特徴ベクトルに対して, 出力すべき正しい目的変数が与えられている状況で, それを元に, 目的変数の与えられていない特徴ベクトルに対してよい予測値を出力するモデル (model, または学習器 learner , 仮説 hypothesis) を決定するアルゴリズムです. 一方で, 正答が用意されていない場合は, 教師なし学習のアルゴリズムを用います. クラスタリングがその最たる例です. そのため, 教師なし学習は原理的に外挿がどれだけうまくいくかを確認することができません. とは言え, 全くデタラメに決めてしまうわけではなく, 何らかの仮定の元に学習を行います.

この他, 半教師あり学習 (semi-supervised learning) が第3のカテゴリとして挙げられることがあります. 名前の通り, 一部には目的変数があり, 一部では存在しないデータがあるという状況で, 両方を使って学習するものです. これは, 基本的には正答のあるケースを用いて学習するため, 教師あり学習の応用形とも考えられます² 本稿では基本的に, 教師あり学習のアルゴリズムのみについて説明します.

回帰分析は統計学でも機械学習でも使われます. 機械学習においては, 最小二乗法は残差自乗損失関数を最小化するように係数を選ぶ学習アルゴリズムであるので, 最小二乗学習とも呼ばれますが, これは回帰分析の基本的な方法の1つである最小二乗法と全く同じです. あるいは分類問題に使われるロジスティック学習はロジスティック損失関数を最小化することです. 統計学で使われるロジスティック回帰は統計モデリングの文脈ではベルヌーイ分布の尤度を最大化する問題として説明されます. しかしこれも数学的に両者全く等価です. このように, 統計モデリングでは尤度の最大化として説明され, 機械学習では損失関数の最小化として説明されることが多いですが, 実際には数学的に同じ問題である, という場面はよくあります. そして機械学習の分野でも便宜的にロジスティック回帰などの統計学での呼び方がよく使われます.

では, 統計モデリングと機械学習が何が違うのかと言うと, これはあまり深く考えないほうがいいと思います. 両者はそれぞれある程度独立して発展してきましたが, 実質的に同じ手法にたどり着いていたり, 一方で発見されたアイディアが他方で利用されるということもよくあります. 統計学的には, 一致性, 有効性, 不偏性というように, その方法が理論的に好ましい性質を満たしているかに注意することが多く, 機械学習ではこれらの用語はあまり出てきません. しかし統計学の範囲でもこれらが絶対というわけでもありません. その上で, 私の個人的な考えとしては, 我々のように応用する上では個別の手法が統計学と機械学習のどちらのドメインに属するかを深く考える意味はあまりなく, むしろそれぞれどういう目的で作られたかをよく確認した上で, 効果的な利用方法を見極めてほしい, というものです. 例えば, 単に「予測モデル」といっても, 何を予測したいのか, 使用できるデータの特性は何なのか, 何をもって良いモデルと評価したいのか, というように, 実際に取り扱う問題によっていろいろと考える余地はあります.

あるいは, 目的変数が欠損していると捉えれば, 統計モデリングでいう潜在変数モデルとも解釈できます.↩︎