MapReduceは,Google社内でクラスタ上のデータ処理に用いられている並列分散プログラミングモデルである.ちょうど今サンフランシスコで開催されるOSDI 2004に発表予定の論文が,すでに公開されているが,これが非常に面白い. http://labs.google.com/papers/mapreduce.html 概要は次のような感じ. データ処理を,MapとReduceの2つに分割する.なお,この名前は同様な機能を持つLispの関数名が由来. Mapでは,あるキーと値の組から,中間のキーと値の組のリストを生成し,ローカルディスクに書き込む. Reduceでは,Mapが生成したキーと値の組をリモートディスクから読み出し,値のリストを返す. MapとReduceは,複数のワーカによって分散したマシン上で並列に実行される. たとえば,細分化された入力ファイルをMapを処理するワーカが