タグ

2009年1月16日のブックマーク (1件)

  • 機械学習が分からん - ブログ執筆中

    めっちゃ学術的で、分かる人にしか分からないエントリですまそ。自然言語処理を研究しているので、機械学習を勉強していますが、分からないことだらけ。 データセットをランダムにn個に分割し、そのうちn-1個を訓練データに使い、1個をテストデータに使う。訓練事例とテスト事例の分割は全部でn個あるので、すべてのパターンに対して学習→テストを行い平均(マクロ平均)をとる。こうすると事例の総数が少なくても、事例の情報を余すこと無く使うことができるため、少ない事例数でもより正確な評価ができる。これがn-fold cross validation。 トレーニングデータの数に対して、素性の数が多い場合、学習データに対して正確にフィッティングしすぎてしまい、テストデータに対して正しく分類できないことがある。これがオーバーフィッティング。オーバーフィッティングを回避する方法として正則化項を追加するという方法がある。

    機械学習が分からん - ブログ執筆中