タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pythonとhadoopに関するjuno_cのブックマーク (2)

  • Python:Hadoop:MapReduceサンプル - HiiHahWIKI - making some notes for... -

    Python:Hadoop:MapReduce?サンプル † HadoopのMapReduce?のプログラムをHadoopStreaming?を使ってPythonで書いてみました。 ※CDH環境で実行してますので、実行時のパス等は適当に読み替えてください。 Reducerの処理は一工夫必要だけど、簡単に書けます。 ログの集計とか、Hadoop使ってやるとほんと簡単に実行できるなーと実感した限りです。 ↑ 処理対象データの一部 † こんな感じのデータが入力で、時刻(分)単位のレスポンスタイムの平均を求めたいです。 ■test.txt #refpre(test.txt,,1); 第一カラム 時刻(ミリ秒まで出力されている) 第四カラム レスポンスタイム(ミリ秒) ↑ ソース † こんな感じです。 ■map.py #refpre(map.py,,1); ほんとは、入力値チェックをして、エラーレコ

  • Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く

    HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま

    Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く
  • 1