概要 UDFの入ったjarを置くだけでhiveから機械学習的なことができるたいへんお手軽なライブラリ、hivemall。 perceptronやlogistic regressionなどのベーシックなものや、AROWやSCWのような比較的新しいものなどが入っている。Hiveのクエリのみで分類問題が完結できるので、機械学習が専門でない人でもそれなりに扱えそうに見える。 現状では分類と回帰ができて、クラスタリングはできない模様。今回は回帰をちょこちょこやらせてみる。 テストデータを作る テストデータ生成用の機能も用意されているけど、今回はPythonで生成してtsvファイルにして送ることにする。下記のようなコードで分類しやすそうな点の集まりを生成。 import numpy as np import pylab as pl n0 = np.random.normal(loc=1.0, scal
![hivemallを使ってみる | mwSoft](https://cdn-ak-scissors.b.st-hatena.com/image/square/b86939eebb26f6c47779d11b77656ef8ccefaf57/height=288;version=1;width=512/http%3A%2F%2Fwww.mwsoft.jp%2Fprogramming%2Fhadoop%2Fimg%2Fhivemall_01.png)