タグ

MapReduceに関するwebmarksjpのブックマーク (10)

  • グーグルデータセンターの内側--明らかにされた独自性

    サンフランシスコ発--先日、Googleの秘密が少しだけ明らかになった。 Googleがデータセンター業務を公開することは滅多にないが、米国時間5月28日、GoogleフェローであるJeff Dean氏が業務の一部を話題に取り上げた。28日に当地で開催された「Google I/O」カンファレンスの超満員の聴衆に対して講演を行ったDean氏は、Googleのインフラがいかに独特かを説明しながら、Googleの秘密を少しだけ明らかにした。 Googleはごく普通のサーバを使用している。プロセッサ、ハードドライブ、メモリも同様だ。 一方、Dean氏は、1800台のサーバで構成されるクラスタは、たいしたものではないというわけではないが、ごくありふれていると考えているようだ。しかし、Googleがそのようなハードウェアを使って、700〜1000台のサーバが使われる一般的な検索クエリに0.5秒以下で応

    グーグルデータセンターの内側--明らかにされた独自性
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

  • Google Research Publication: MapReduce: Simplified Data Processing on Large Clusters

    MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat Abstract MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with t

  • Hadoop Streaming - naoyaのはてなダイアリー

    id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

    Hadoop Streaming - naoyaのはてなダイアリー
  • MOONGIFT: » Googleのデータ処理分散システムMapReduceのオープンソース実装「Skynet」:オープンソースを毎日紹介

    Googleではその超巨大なコンピュータネットワークを使って、データ処理が分散化されている。これにより、大量のデータを瞬時に処理することが可能になっている。この分散処理システムはMapReduceと呼ばれており、Googleの基盤を支えるコア技術の一つだ。 処理状態を確認するコンソール ごく小規模なシステムであればニーズは発生しないかも知れないが、数十台、数百台のコンピュータを結びつける上で分散化処理は欠かせない技術だ。そこでMapReduceをオープンソース実装したこちらを紹介しよう。 今回紹介するオープンソース・ソフトウェアはSkynetRubyで実装されたMapReduceのオープンソース実装だ。 Skynetは多数のワーカーを立ち上げ、それらが互いに監視し合うことで障害発生時にも柔軟にタスクの受け渡しが可能になっている。単一障害点はなく、マスタサーバという位置づけのものですら他の

    MOONGIFT: » Googleのデータ処理分散システムMapReduceのオープンソース実装「Skynet」:オープンソースを毎日紹介
  • グーグル技術講演会 - pekeqのブログ

    日行われた「グーグル技術講演会」に行ってきた。MapReduceやSawzallの話は、Googleが公開しているpaper以上の内容ではなかった感じ。それ以外で記憶に残ったのはこんなところでした。 ノード 何千台の2CPU 2-4GBmem x86 PC GbE ローカルIDE HDD(あんまりローカルF/Sにはアクセスしない) インフラ MapReduce Sawzall Protocol Buffer (Sawzall論文のPDF5ページ目 後半) GFS Work Queue BigTable MapReduceを利用して、保管されているWebページ全体に対してとあるクエリーを投げ、終わるまでに半日かからない Googleエンジニアは、社内で利用しているソフトウェアのソースコードに自由にアクセスできる 一方で、データは扱えるレベルがあって、たとえば(アクセスログに記録された)I

    グーグル技術講演会 - pekeqのブログ
  • Hadoopのインストールとサンプルプログラムの実行:CodeZine

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce Fr

  • OBB vs AABB - Radium Software Development

    iPhoneの一般修理店は予約なしでも来店できる? 基的には飛び込みで修理に行ってもOK iPhoneを置いていたソファにうっかりと腰かけてしまい、パネルを割ってしまった、こんな時はスマホの一般修理店へ行きましょう。画面割れは、スマホやタブレットの故障原因として非常に多いものです。予約なしで突然お店に行っても平気かしらと、不安に思う方々もいらっしゃるかもしれません。結論としては特に問題はなく、予約なしで訪問しても画面割れの修理はお願いできます。 ただし他のサービス業のお店同様、予約なしの場合、お店が混雑していると順番待ちをしなければいけないです。特に繁盛しているスマホ修理のお店だと、行列が店内で出来ており、予約なしだと、自分の順番が巡ってくるまで長時間待たされる可能性があります。平日の朝、昼なら利用客が少ない場合が多く、飛び込みでも比較スムーズに修理が頼めます。 予約は入れた方が時短に、

  • HTTPベースによるMapReduceフレームワーク·HTTPMR MOONGIFT

    大規模なデータを分散処理するための技術と言えばMapReduceだ。通常の企業では難しい、数万台のネットワークコンピューティングを駆使したデータ処理を可能にするGoogleの根幹をささせる一技術になっている。 処理の一覧 そんなMapReduceはオープンソースで実装されるものもあるが、格的に実装するにはハードウェアやインフラの存在が必要になる。だが、これを使えばハードウェアも無用でMapReduceを体感できる。 今回紹介するオープンソース・ソフトウェアはHTTPMR、Google App Engine上で動作するMapReduce実装だ。 HTTPMRはGoogle App Engine上で動作するライブラリで、HTTPベースでMapReduceのように分散処理を行えるようになる。リクエストはランダムに選ばれたコンピュータ上で実行される。各リクエストは数秒でタイムアウトするようになっ

    HTTPベースによるMapReduceフレームワーク·HTTPMR MOONGIFT
  • 1