タグ

2009年4月5日のブックマーク (2件)

  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • 来た来た! Amazon + Hadoop = Amazon Elastic MapReduce - Muranaga's View

    顧客からのフィードバックを受け、地道に改良を積み重ねていく Amazon が、パブリック・クラウド業界を当面のところリードし続けるように思う。 と書いたその日に、Amazon が Hadoop を使った Amazon Elastic MapReduce のベータ版サービス開始を発表した。いよいよ他のパブリック・クラウド・プロバイダを引き離しにかかった感がある。 第4章 Google の分散データ処理 MapReduce:大規模分散ストレージ上のデータを効率よく処理するための独自のアブストラクションとして Map と Reduce を提案。開発者は用途ごとに Map と Reduce の関数(処理)を定義、その分散化はシステムが自動的に行ってくれる。→原論文 『Googleを支える技術 -- 巨大システムの内側の世界』の第4章で紹介されているように、MapReduce は Google が開