もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。 先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。 発表内容は三部構成になっています。 最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの簡単な紹介をしました。 次に、機械学習の最前線ではどのような問題が解かれているかを紹介し、グラフィカルモデルの例、一般の最適化(教師付き学習におけるパラメータ学習)の分散並列化についての話題をしました。 最後に、MapReduceの補完として使えるようなシステムの例としてdremelを紹介しました。このシステムはMapReduceがバッチ型処理で、全データが処理対象の場合が得意なのに対し、一