Hadoop始めたいけどJavaで書くのめんどくさい… という人のためのチュートリアル. HadoopはJavaで記述されているため基本的にはMapper/ReducerもJavaで記述するが,HadoopにはHadoop Streamingという機能があり,Unixの標準入出力を介してデータの受け渡しをすることができる. これを用いてPythonでMapper/Reducerを書いてみた.もちろんHadoop Streamingを利用すればPython以外の言語でも書ける. 今回はUbuntu上に擬似分散環境を構築してみた. Ubuntu12.04 + Haadoop2.4.1 Hadoopの環境構築 Javaがない場合はインストール $ wget http://mirror.nexcess.net/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4