タグ

MapReduceに関するKen_Yamada99のブックマーク (6)

  • グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開

    グーグルは、同社内でパラレルデータ処理に利用している言語「Sawzall」を、「Szl」というプロジェクト名のオープンソースとして公開しました。 書籍「Googleを支える技術」によると、Sawzallは分散処理のためにデザインされたDSL(Domain Specific Language)で、特定の用途に限っては非常に容易に処理を記述できるようになっているインタープリタ型のプログラミング言語。GFS(Google File System)とMapReduceを基盤とし、MapReduceをより簡単に実行できるものと説明されています。 なぜSawzallはオープンソースとして公開されたのか? グーグルは2003年8月に、論文「Interpreting the Data: Parallel Analysis with Sawzall」を発表し、これによってSawzallという言語がグーグル

    グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開
  • 米MySpace、.NET向けのMapReduce技術「Quizmt」をオープンソースに | OSDN Magazine

    米MySpace(米News Corp傘下)は9月15日(米国時間)、自社分散コンピューティングフレームワーク「Quizmt」をオープンソースとして公開した。C#.NETで実装、.NETWindowsシステムで“MapReduce”コンセプトを利用できるとしている。 QuizmtはMySpaceのデータマイニングチームが開発した分散コンピューティング技術で、MySpaceの推薦機能「People You May Know」で実際に利用されているという。 特徴は、C#.NETを利用し、Windowsプラットフォームを対象とした点。現在MapReduceの多くがC++Javaベースだが、Windowsおよび.NET開発者が容易にMapReduce機能を作成できるとしている。性能は、社内ベンチマークテストではオープンソースのMapReduce技術と同レベルの処理速度だったという。ビルトインの

    米MySpace、.NET向けのMapReduce技術「Quizmt」をオープンソースに | OSDN Magazine
  • RubyでHadoopをラップ、分散処理ツールキットが登場 - @IT

    2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • 楽天版MapReduce・HadoopはRubyを活用 - @IT

    2008/12/01 楽天は11月29日、東京・品川の社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」(ローマ)と「fairy」(フェアリー)について、その概要を明らかにした。 レコメンデーションの処理自体はシンプル 楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション(商品の推薦)を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。 レコメンデーションの仕組みとして同社は、一般的でシンプルなア

  • グーグルデータセンターの内側--明らかにされた独自性

    サンフランシスコ発--先日、Googleの秘密が少しだけ明らかになった。 Googleがデータセンター業務を公開することは滅多にないが、米国時間5月28日、GoogleフェローであるJeff Dean氏が業務の一部を話題に取り上げた。28日に当地で開催された「Google I/O」カンファレンスの超満員の聴衆に対して講演を行ったDean氏は、Googleのインフラがいかに独特かを説明しながら、Googleの秘密を少しだけ明らかにした。 Googleはごく普通のサーバを使用している。プロセッサ、ハードドライブ、メモリも同様だ。 一方、Dean氏は、1800台のサーバで構成されるクラスタは、たいしたものではないというわけではないが、ごくありふれていると考えているようだ。しかし、Googleがそのようなハードウェアを使って、700〜1000台のサーバが使われる一般的な検索クエリに0.5秒以下で応

    グーグルデータセンターの内側--明らかにされた独自性
  • 1