タグ

mapreduceに関するcos31のブックマーク (3)

  • Facebook、スケーラビリティを強化したスケジューリングツール「Corona」をオープンソース化

    Facebook、スケーラビリティを強化したスケジューリングツール「Corona」をオープンソース化:MapReduceの限界を独自開発で解決 データが大きくなりすぎてMapReduceのジョブトラッカーが死亡? そんな課題に対応するため、Facebookはジョブスケジューリングツールをゼロから構築、公開した。 米Facebookはユーザーベースの拡大に伴って生成される大量のデータ処理に対応するため、新しいスケジューリングフレームワークの「Corona」を開発し、11月8日にオープンソースとして公開したことを明らかにした。 Facebookはこれまで、データインフラ基盤としてApache HadoopのMapReduceを採用してきた。しかし、データウェアハウスで生成されるデータが24時間あたり0.5ペタバイトを超え、Hiveクエリの処理は1日当たり6万を超える中で、2011年初めごろから

    Facebook、スケーラビリティを強化したスケジューリングツール「Corona」をオープンソース化
  • MOONGIFT: » Googleのデータ処理分散システムMapReduceのオープンソース実装「Skynet」:オープンソースを毎日紹介

    Googleではその超巨大なコンピュータネットワークを使って、データ処理が分散化されている。これにより、大量のデータを瞬時に処理することが可能になっている。この分散処理システムはMapReduceと呼ばれており、Googleの基盤を支えるコア技術の一つだ。 処理状態を確認するコンソール ごく小規模なシステムであればニーズは発生しないかも知れないが、数十台、数百台のコンピュータを結びつける上で分散化処理は欠かせない技術だ。そこでMapReduceをオープンソース実装したこちらを紹介しよう。 今回紹介するオープンソース・ソフトウェアはSkynetRubyで実装されたMapReduceのオープンソース実装だ。 Skynetは多数のワーカーを立ち上げ、それらが互いに監視し合うことで障害発生時にも柔軟にタスクの受け渡しが可能になっている。単一障害点はなく、マスタサーバという位置づけのものですら他の

    MOONGIFT: » Googleのデータ処理分散システムMapReduceのオープンソース実装「Skynet」:オープンソースを毎日紹介
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • 1