タグ

過学習に関するmahler-5のブックマーク (2)

  • 「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    今年の1月にこんな話題を取り上げたわけですが。 この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。 そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき 冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。 一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン

    「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • 回帰モデルにおけるL1正則化とL2正則化の効果 - old school magic

    概要 回帰モデルとは、与えられた入力を用いて目標変数を予測するモデルです。 回帰モデルでは過学習を防ぐため、誤差関数(二乗誤差関数など)に次の式で表される正則化項を加えて最小化します。 この形の正則化項を用いる回帰をブリッジ回帰と呼びます。 特にの時をLasso回帰、の時をRidge回帰と呼びます。また、それぞれに用いられている正則加項をL1ノルム、L2ノルムと呼びます。 L1ノルムとL2ノルムの特徴を簡単にまとめると次のようになります。 L1ノルムはパラメータの一部を完全に0にするため、モデルの推定と変数選択を同時に行うことができる 特に次元数>>データ数の状況で強力 L2ノルムは微分可能であり解析的に解けるが、L1ノルムは 解析的に計算出来ない L1ノルムには様々な推定アルゴリズムが提案されている また、L1ノルムには 次元が標数より大きい時、高々個の変数まて

  • 1