Python:Hadoop:MapReduce?サンプル † HadoopのMapReduce?のプログラムをHadoopStreaming?を使ってPythonで書いてみました。 ※CDH環境で実行してますので、実行時のパス等は適当に読み替えてください。 Reducerの処理は一工夫必要だけど、簡単に書けます。 ログの集計とか、Hadoop使ってやるとほんと簡単に実行できるなーと実感した限りです。 ↑ 処理対象データの一部 † こんな感じのデータが入力で、時刻(分)単位のレスポンスタイムの平均を求めたいです。 ■test.txt #refpre(test.txt,,1); 第一カラム 時刻(ミリ秒まで出力されている) 第四カラム レスポンスタイム(ミリ秒) ↑ ソース † こんな感じです。 ■map.py #refpre(map.py,,1); ほんとは、入力値チェックをして、エラーレコ