タグ

機械学習に関するbogenbauerのブックマーク (2)

  • Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS

    Mahoutシリーズ目次(随時更新) 非分散レコメンデーション Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS (これ) レコメンデーションの簡単な原理を視覚的に把握してから実際に計算してみる - 都元ダイスケ IT-PRESS 機械学習における重大な"仮定"と、アルゴリズムの評価 - 都元ダイスケ IT-PRESS 分散レコメンデーション Mahoutで分散レコメンド(1) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(2) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(3) - 都元ダイスケ IT-PRESS クラスタリング 今度はMahoutでクラスタリング - 都元ダイスケ IT-PRESS 今度はMahoutでクラスタリング(ソース編) - 都元ダイスケ IT-PRESS では、文いきます。 Apach

    Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS
  • 機械学習が分からん - ブログ執筆中

    めっちゃ学術的で、分かる人にしか分からないエントリですまそ。自然言語処理を研究しているので、機械学習を勉強していますが、分からないことだらけ。 データセットをランダムにn個に分割し、そのうちn-1個を訓練データに使い、1個をテストデータに使う。訓練事例とテスト事例の分割は全部でn個あるので、すべてのパターンに対して学習→テストを行い平均(マクロ平均)をとる。こうすると事例の総数が少なくても、事例の情報を余すこと無く使うことができるため、少ない事例数でもより正確な評価ができる。これがn-fold cross validation。 トレーニングデータの数に対して、素性の数が多い場合、学習データに対して正確にフィッティングしすぎてしまい、テストデータに対して正しく分類できないことがある。これがオーバーフィッティング。オーバーフィッティングを回避する方法として正則化項を追加するという方法がある。

    機械学習が分からん - ブログ執筆中
  • 1