「ビッグデータ」もう何度も耳にした用語ではないでしょうか? では、具体的にどのように活用すれば良いのでしょう。 メディアプランの方法論で言えばDiscoveryやLook-alikeがありますが とにかくデータに触れてみて、分析をしてみる事が新たな発見の近道だと思います。 ということでMahoutでRandom Forestを試してみました。 ■環境 ・Hadoop ・Pig ・Mahout-0.7 ■Random Forestとは 多数の決定木を用いた集団学習により、他の分類(SVMなど)と比べ 高精度の分類・予測(回帰)を実現する機械学習アルゴリズム。 ようは多数の決定木を作成して、それぞれの決定木が出した答えを多数決して、 最も支持が多かったクラスに分類する手法です。 質問に「YES」か「NO」で答える診断テストが複数あって、その中で 1番多く当てはまった診断結果を最終の解にするイメ
![Mahoutでランダムフォレストを試してみた](https://cdn-ak-scissors.b.st-hatena.com/image/square/438307b0acf96d4d2603c6817721c949cd2b7f71/height=288;version=1;width=512/https%3A%2F%2Fwww.e-agency.co.jp%2Fwp-content%2Fuploads%2F2013%2F02%2FMahout.png)