タグ

ossとMapReduceに関するstibbarのブックマーク (2)

  • マイスペース、分散処理フレームワーク「qizmt」をオープンソースに

    MySpaceは米国時間9月15日、「qizmt」と呼ばれる新しいオープンソースプロジェクトを発表した。qizmtは、同社のデータマイニングチームが開発した分散型コンピュテーションフレームワークだ。 qizmtは、Googleにおける検索インデックス作成の中核的なシステムとしてよく知られている「MapReduce」をベースにしている。しかし、qizmtは、「Microsoft Windows」サーバで構成された大規模クラスタ上で動作する。これはコモディティレベルのLinuxマシンを利用するものと思われがちなコンピューティングスタイルとしては興味深い点である。 MapReduceは、巨大なデータセットを処理、生成するためのプログラミングモデル。キーとバリューのペアを処理して中間的なキーとバリューのペアセットを生成するmap関数や、その処理結果を集約するreduce関数を利用するのが特徴である

    マイスペース、分散処理フレームワーク「qizmt」をオープンソースに
    stibbar
    stibbar 2009/11/14
    しかし、qizmtは、「Microsoft Windows」サーバで構成された大規模クラスタ上で動作する。これはコモディティレベルのLinuxマシンを利用するものと思われがちなコンピューティングスタイルとしては興味深い点である。
  • Amazon EC2をベースに分散処理システムを構築する·Cloud Crowd MOONGIFT

    Cloud CrowdはRuby製のオープンソース・ソフトウェア。大量のデータを処理しようと思った時にはMapReduceのような仕組みに注目が集まる。テキストのみならず、大量のOCR処理が必要になったり画像をサムネイル化したいといった時にはどのようなシステムを構築するのだが良いだろうか。 Rubyを使って分散処理 一時的に無数のシステムを立ち上げ平行で処理を走らせる時に注目したいのがAmazon EC2だ。以前、ニューヨークタイムズでは1,100万枚を越える画像をPDFに変換するという処理をAmazon EC2のインスタンスを100立ち上げて行ったという事例がある。どうようのシステムを構築するのがCloud Crowdだ。 Cloud Crowdも利用するのはAmazon EC2だ。アクションはRubyで定義するようになっており、テキスト処理のみならず画像変換などの柔軟なシステム処理が可

    Amazon EC2をベースに分散処理システムを構築する·Cloud Crowd MOONGIFT
  • 1