Streamingの概要 Hadoopストリーミングは、Java以外の言語のMapper・Reducerプログラムを実行する方法。 データは標準入出力を介して受け渡す。 つまり、標準入力からデータ(テキスト)を受け取り、標準出力にデータを出力することでHadoop側とやりとりする。 したがって、標準入出力が扱える言語なら何でも使用できる。 Streamingの実行方法 Hadooopストリーミングでは、Streaming用のJavaプログラムにMapper・Reducerプログラムを指定する形で実行する。 CDH3の場合、以下のように指定する。 hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \ -mapper Mapperプログラムのファイル名 \ -combiner Combine