Hadoopの機械学習をPythonでやりたい Java以外でもHadoopのJobを書くことが出来るので、 機械学習に強いPythonをHadoopで実装できるようなSkipJackというラッパーをPythonもくもく会と正月で作りました。 GitHubは以下においています。(pipは無し) GitHub-SkipJack 以下、詳細 HadoopStreaming Scikit-learn SkipJack HadoopStreaming Hadoopでは、 スレーブ部分でJavaを実行する(Haoop MR Tutorial) スレーブ部分で標準入出力を介してファイルを実行する(Hadoop Streaming Tutorial) という2つの実行方法があり、 標準入出力を扱える全ての言語でHadoopが使えます。(Hadoop Streaming) なので、Hadoopで機械学習を