タグ

mapreduceに関するhiroki23のブックマーク (6)

  • グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開

    グーグルは、同社内でパラレルデータ処理に利用している言語「Sawzall」を、「Szl」というプロジェクト名のオープンソースとして公開しました。 書籍「Googleを支える技術」によると、Sawzallは分散処理のためにデザインされたDSL(Domain Specific Language)で、特定の用途に限っては非常に容易に処理を記述できるようになっているインタープリタ型のプログラミング言語。GFS(Google File System)とMapReduceを基盤とし、MapReduceをより簡単に実行できるものと説明されています。 なぜSawzallはオープンソースとして公開されたのか? グーグルは2003年8月に、論文「Interpreting the Data: Parallel Analysis with Sawzall」を発表し、これによってSawzallという言語がグーグル

    グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開
  • RubyでHadoopをラップ、分散処理ツールキットが登場 - @IT

    2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
    hiroki23
    hiroki23 2009/04/15
    分かりやすい
  • 楽天版MapReduce・HadoopはRubyを活用 - @IT

    2008/12/01 楽天は11月29日、東京・品川の社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」(ローマ)と「fairy」(フェアリー)について、その概要を明らかにした。 レコメンデーションの処理自体はシンプル 楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション(商品の推薦)を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。 レコメンデーションの仕組みとして同社は、一般的でシンプルなア

  • Skynet−新しいRubyのMapReduce

    データ処理を分散させるMapReduce設計パターン(source)が2004年にGoogleによって導入され、それにはC++の実装がついてきた。今では、Adam Pisoni氏(サイト・英語)がSkynet(サイト・英語)という名称でリリースした新しいRubyでの実装版が利用可能だ。 Skynetは順応性があり、自動アップグレード機能付きで耐障害性の完全分散型システムで、単一障害点は皆無です。 GoogleのデザインペーパーとSkynetには著しく重要な相違点が2つある。 Skynetが生コードをワーカーに送れないこと。 Skynetはピア・リカバリシステムを利用しており、ワーカーがお互いを監視していること(サイト・英語)。 理由が何であれワーカーが故障する、あるいは機能しなくなると、別のワーカーが気付いて、そのタスクを引き継ぎます。また、Skynetには特別な「マスター」サーバは存在せ

    Skynet−新しいRubyのMapReduce
  • MapReduce:Simplified Data Processing on Large Clusters

    MapReduce: Simplified Data Processing on Large Clusters

  • 1