タグ

2010年3月20日のブックマーク (1件)

  • Hadoop StreamingのReducerへの入力の構造化をPHPでやってみた - Stellaqua - TOMの技術日記

    (今回の記事は、id:naoyaさんの記事をパクってにインスパイアされて、PHPでやってみたものです。話の内容としては概ね同じです。) 前回の記事の最後で、「HadoopStreamingはReducerへの入力が構造化されていないという問題点があります。」という事を書きました。 前回の小説の文を分かち書きしたものの単語数カウントの例で言うと、Reducerに渡ってくる入力は次のような形になります。 単語1 1 単語1 1 単語2 1 :今回は、単純にハッシュ上にカウントしていくだけなので大した問題にはなりませんが、もっと複雑な処理をReducerにやらせようとすると、PHPプロセスのメモリ不足になってしまう可能性があります。 PHPでHadoopStreamingの入出力を汎用的に扱う という訳で、id:naoyaさんの作ったフレームワークを参考に、PHPで同じようなものを作ってみました

    Hadoop StreamingのReducerへの入力の構造化をPHPでやってみた - Stellaqua - TOMの技術日記