Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す 前回の記事では、Hadoopクラスタ(というかHDFS)に収納されている、いかにもありがちなユーザー行動テーブルを、機械学習で扱いやすい素性ベクトル+分類ラベルのテーブルに直す、というお話をしました。 ここからがデータマイニングの本番です。 ここではどの機械学習分類器を使うのか?といった細かい議論は後回しにして*1、とにかくRを使ってどのように上記のテーブルに対して機械学習を実行するのか?について書いてみます。 とにかくR formula: 'y~x+y+z'の形に持って行く 既に前回の記事でも触れた通りですが、Rの関数群は大抵の作業仮説となるモデルを"formula"として与えられるように設定されています。 その書式については、とある方のブログ記事が分かりやすいと思いますのでまずはそちらをご参照のこと。要は、回帰
![素性ベクトル+分類ラベルのテーブルを持ってくる⇒Rを使ってお手軽に機械学習で分類してみる - 渋谷駅前で働くデータサイエンティストのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/006b43d210ef96c6e11a085d93567f552747f6ac/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FT%2FTJO%2F20130411%2F20130411163935.jpg)