1. 数学カフェ 「確率・統計・機械学習」 (Part2) 2017年4⽉22⽇数学カフェ Yahoo! Japan コワーキングスペース LODGE 株式会社Preferred Networks ⼤野健太 oono@preferred.jp 3. 問題設定とアプローチ 問題 • 訓練データ:D = {(x1, y1), …, (xN, yN)}が与えられている • 未知データ x からラベル y を予測する予測モデルを作りたい アプローチ • 真のデータ分布 q が存在し、Dの各サンプルは q から独⽴同分 布にサンプリングされたと仮定する:(xi, yi) ~ q i.i.d. • 仮説集合 H = {pθ | θ ∈ Θ}と損失関数 L(x, y; θ) を設定する 3 4. 汎化誤差と訓練誤差 汎化誤差: E (θ) = E(x, y)~q [L(x, y; θ)] • 本当に最⼩