タグ

MapReduceに関するQuatのブックマーク (2)

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • MapReduceに代わる新しいインデックスシステムPercolator - huixingの日記

    グーグルの新しいインデックスシステムであるカフェインCaffeineで、グーグルMapReduceに代わりまだ人に知られていないPercolatorを採用した。Percolatorはインクリメンタル処理する検索インフラストラクチャーで持続的にインデックスを更新するため、一から再度インデックスし直す必要がない。MapReduceのようなバッチ処理システムでは大量のデータを生み出し、小規模のデータ更新はできない。Percolatorはこの問題を解決し、一日で同数量のドキュメントを処理したとき、Percolatorでは検索結果ページのドキュメント年齢を半減することができるという。 Google Caffeine ― the revamped search infrastructure recently rolled out across Google's worldwide network o

    MapReduceに代わる新しいインデックスシステムPercolator - huixingの日記
  • 1