タグ

PythonとMapReduceに関するakakitのブックマーク (2)

  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
  • 翻訳 - Pythonのmultiprocessingモジュールを使ってMapReduceをインプリする — TRIVIAL TECHNOLOGIES 2.0

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー PyMOTWをメンテしてるDoug HallmannさんがPython 2.6(および3.0)から導入された,分散コンピューティングを強力にサポートするmultiprocessingモジュールを使ってMapReduceを実装しているのを発見した。MapReduceはGoolgeが使っている並列処理システム。multiprocessingモジュールのサンプルとしても,Pythonを使ったMapReduceの実装としても面白いし,勉強になると思うのでエントリを翻訳してみた。Pythonを覚えることの利点はいくつかあるけど,こういう上質なリソースにリーチする権利を得られる,のも大きな利点の一

  • 1