[B! mapreduce] kataringのブックマーク

kataring id:kataring

mapreduceに関するkataringのブックマーク (11)

MapReduce on Tyrant - mixi engineer blog
先日、隅田川の屋形船で花見と洒落込んだのですが、その日はまだ一分咲きも行ってなくて悲しい思いをしたmikioです。今回はTokyo Tyrant（TT）に格納したデータを対象としてMapReduceのモデルに基づく計算をする方法について述べます。 MapReduceとは Googleが使っているという分散処理の計算モデルおよびその実装のことだそうですが、詳しいことはググってください。Googleによる出自の論文やApacheプロジェクトによるHadoopなどのオープンソース実装にあたるのもよいでしょう（私は両者とも詳しく見ていませんが）。今回の趣旨は、CouchDBがMapReduceと称してJavaScriptで実現しているデータ集計方法をTTとTCとLuaでやってみようじゃないかということです。簡単に言えば、以下の処理を実装します。ユーザから計算開始が指示されると、TTは、DB内の
kataring 2009/04/06
mapreduce

mixi

tokyocabinet
リンク
楽天版MapReduce・HadoopはRubyを活用－＠IT
2008/12/01 楽天は11月29日、東京・品川の本社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」（ローマ）と「fairy」（フェアリー）について、その概要を明らかにした。レコメンデーションの処理自体はシンプル楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション（商品の推薦）を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。レコメンデーションの仕組みとして同社は、一般的でシンプルなア
kataring 2008/12/03
rakuten

分散処理

ruby

mapreduce

hadoop
リンク
Hadoopの解析資料
オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする
kataring 2008/08/25
hadoop

mapreduce

pfi
リンク
Google Research Publication: MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat Abstract MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with t
kataring 2008/08/04
*google

algorithm

cluster

mapreduce
リンク
GoogleのMapReduceアルゴリズムをJavaで理解する
GoogleのMapReduceアルゴリズムをJavaで理解する：いま再注目の分散処理技術（前編）（1/2 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部）いま注目の大規模分散処理アルゴリズム最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです（参考「見えるグーグル、見えないグーグル」）。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。その詳細は「MapReduce : Simplified Data Proc
kataring 2008/07/11
google

hadoop

java

mapreduce

*programming

負荷分散
リンク
YLUG 第88回カーネル読書会 Googleの基盤クローンHadoopについて
YLUG 第88回カーネル読書会 Googleの基盤クローンHadoopについて - 52 min - Jul 4, 2008 () Rate: 発表者: 東京大学太田一樹さん内容： Googleでは１日に何Tものデータが処理され、検索・広告等のサ...all » 発表者: 東京大学太田一樹さん内容： Googleでは１日に何Tものデータが処理され、検索・広告等のサービスに活かされています。このような膨大なデータを処理する為の基盤技術としてGoogle File SystemとMapReduce が使われている事が論文で発表されています。今回はそのオープンソースクローンであるHadoopの概要と実装について発表します。« Embed video <embed id="VideoPlayback" src="http://video.google.com/googlepla
kataring 2008/07/10
google

hadoop

mapreduce

動画
リンク
Kansai.pm での発表資料 (Hadoop Streaming で MapReduce) - naoyaのはてなダイアリー
Kansai.pm に参加しました。とても楽しかったです。自分も "Hadoop Streaming で MapReduce" という題目で発表しました。取り急ぎ、資料を以下に公開します。 http://bloghackers.net/~naoya/ppt/080530kansai pm.ppt MapReduce は Google のバックエンドで動いている分散並列バッチ処理システムです。GFS は Google の分散ファイルシステムです。Google ウェアのクローンとしてオープンソースで開発されているのが Hadoop。Hadoop は Yahoo! Inc や Facebook, Amazon.com などでも利用されているとのこと。Hadoop は Java ですが、Hadoop Streaming を使うと　Java 以外でも MapReduce できます。以下のエントリも合
kataring 2008/06/01
hadoop

mapreduce

naoya

人_伊藤直也
リンク
Hadoopのインストールとサンプルプログラムの実行：CodeZine
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました（図1 参照）。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。2. Hadoopの概要　Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS（Hadoop Distributed File System）、Hadoop MapReduce Fr
kataring 2008/05/16
google

hadoop

mapreduce

kzk

hbase

yahoo!
リンク
Hadoopのインストールとサンプルプログラムの実行 - moratorium
Hadoopのインストールとサンプルプログラムの実行 2008-05-15 (Thu) 13:48 Hadoop CodeZineでのHadoop連載記事第二回が公開されました。 Hadoopのインストールとサンプルプログラムの実行是非インストールして試してみてください。最近、はてなの伊藤さんもHadoopをブログで取り上げて下さって、盛り上がりそうなので嬉しいです。しっかしid:naoyaの人気すげー。 MapReduce Hadoop Streaming 第3回は、ようやく分散環境での動作方法です。第4回はHadoopを使ったサービス構築の具体例を取り上げてみたいということで、blogeye.jpを作られた大倉さんにバトンタッチします。 blogeye.jpはAmazon S3, EC2上で構築されたシステムで、著者推定の部分にHadoopが用いられているらしいです。Hadoopで
kataring 2008/05/16
hadoop

mapreduce
リンク
Hadoop Streaming - naoyaのはてなダイアリー
id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外
kataring 2008/05/14
hadoop

mapreduce

yahoo!

伊藤直也
リンク
MapReduce - naoyaのはてなダイアリー
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
kataring 2008/05/11
*google

mapreduce

伊藤直也
リンク
1