[B! mapreduce] tokadaのブックマーク

blog.katsuma.tv

前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

tokada 2009/09/09

mapreduce

リンク

A Comparison of Approaches to Large-Scale Data Analysis - MapReduce vs. DBMS Benchmarks

A Comparison of Approaches to Large-Scale Data Analysis: MapReduce vs. DBMS Benchmarks Overview 04/14/2009 - SIGMOD 2009 Paper The following information is meant to provide documentation on how others can recreate the benchmark trials used in our SIGMOD 2009 paper. Our experiments were conducted on a 100-node cluster at the University of Wisconsin-Madison; each node had a single 2.40 GHz Intel Cor

tokada 2009/04/18

リンク

MapReduce on Tyrant - mixi engineer blog

先日、隅田川の屋形船で花見と洒落込んだのですが、その日はまだ一分咲きも行ってなくて悲しい思いをしたmikioです。今回はTokyo Tyrant（TT）に格納したデータを対象としてMapReduceのモデルに基づく計算をする方法について述べます。 MapReduceとは Googleが使っているという分散処理の計算モデルおよびその実装のことだそうですが、詳しいことはググってください。Googleによる出自の論文やApacheプロジェクトによるHadoopなどのオープンソース実装にあたるのもよいでしょう（私は両者とも詳しく見ていませんが）。今回の趣旨は、CouchDBがMapReduceと称してJavaScriptで実現しているデータ集計方法をTTとTCとLuaでやってみようじゃないかということです。簡単に言えば、以下の処理を実装します。ユーザから計算開始が指示されると、TTは、DB内の

tokada 2009/04/07

mapreduce

リンク

Amazon Elastic MapReduceを使ってみた - moratorium

Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

tokada 2009/04/04

リンク

Big Data Platform - Amazon EMR - AWS

Run big data applications and petabyte-scale data analytics faster, and at less than half the cost of on-premises solutions. Build applications using the latest open-source frameworks, with options to run on customized Amazon EC2 clusters, Amazon EKS, AWS Outposts, or Amazon EMR Serverless.

tokada 2009/04/02

リンク

Groovin' High:map reduceで感じる未来 - livedoor Blog（ブログ）

「しらなーい」って人に、何人か会ったので、ちょっと解説しながら話をすすめます。いつも大量のデータを処理しているGoogleが、「バックエンドでこんなことやって効果を上げてます。」という論文を2004年に発表した。そこに書かれているのは、分散処理のためのデザインパターン「MapReduce」。大量データをいくつかの単位に分割して、キーと値に分割する処理（Map）と、それを集計する処理（Reduce）に分ける事で、処理単位同士の関連性を希薄化し、その結果分散並列処理を可能にする。というもの。このデザインパターンを実装したオープンソース製品が、世界中にうじゃうじゃあるんだけど、一番有名なのが、Javaで実装された「Hadoop」。 Javaで実装されてるから、Javaで利用すればいいんだけど、こいつにはstreamingという機能も搭載されていて、他の言語でもMapReduceを実装でき

tokada 2009/03/11

リンク

GoogleのMapReduceは僕たちに必要か？ - きしだのはてな

ということで、Google MapReduceの実装であるHadoopを使ったMapReduceと、JMSを使ったMapReduceをやってみました。メッセージキューを使って分散MapReduceを実装する HadoopでのMapReduceを気軽に試すサンプルこれ何のためにやったかというと、そこらにあるような数十台規模のサーバーを前提としたときに、Hadoopの有効性、ひいてはその元になってるGoogle MapReduceの有効性について疑問に思ったからです。そこで、ちょっと試してみた、と。ここで、メッセージキューを使った場合に1秒でできてた処理が、Hadoopを使うとスタンドアロンモードでも40秒近くかかりました。擬似分散モードだと4分近くです。いくらHadoopの実装がひどいとしても、これはあんまりです。 Googleでの実装はもっと効率的なものになっていると思いますが、そ

tokada 2009/02/22

リンク

メッセージキューを使って分散MapReduceを実装する 2009-02-16 - きしだのはてな

さて、JMSでメッセージキューも使えるようになって、HadoopでMapReduceも試してみた。そうするとやりたくなるのがメッセージキューを使った分散MapReduceの実装ですね。ということで、JMSを使ってメッセージキューによる分散MapReduceをやってみました。実際にはローカルでしか動かないのですが、コンセプトモデルということで。メッセージキューで遊びたいのでJMSを試す HadoopでのMapReduceを気軽に試すサンプル Hadoopサンプルで作ったのと同じように、クラスがJavaファイル中でimportされている回数を数えてみます。考え方として、ちょっと強引ですが、GoogleやHadoopのMapReduceは分散ファイルシステム付きメッセージキューといえます。けど小規模につつましくやる分には分散ファイルシステムは必要ないので、MapとReduceを分散することだ

tokada 2009/02/17

mapreduce

リンク

本を読む楽天でROMAとfairyの話を聞いてきた

火曜日のHadoopの話に続き、土曜日には「楽天テクノロジーカンファレンス」でROMAとfairyの話を聞いてきました。fairyはようするに楽天版MapReduce、ROMAは楽天版memcached（よりストレージ寄り）という感じのソフトです。以下、メモ。レコメンド＆パーソナライゼーション（楽天技研西岡氏）（emasaka注：これはROMAとfairyのセッションの直前のセッションだけど、関連性が強いので、関連する部分のみ切り出し）楽天でレコメンデーションをやる場合、規模が膨大という特徴がある。何千万もの会員と2,500万の商品の組み合わせ。その対策として、Locality Sensitive Hashingなどアルゴリズムを改良すると同時に、多数のマシンを組みあわせている。そのために、現時点ではHadoopを使ってMapReduce処理をし、k-meansのクラスタリングや

tokada 2008/12/02

リンク

イロイロな分散処理技術とイマドキのWebサービス

最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部） Javaはネットワークを利用した分散処理にも強い Javaはネットワークプログラミング向けのjava.netパッケージが標準で備わっていることからも分かるように、もともとネットワークを強く意識した言語仕様となっています。そのため筆者は、「Javaはネットワークを利用した分散処理にも強い」というイメージを持っています。前回の「GoogleのMapReduceアルゴリズムをJavaで理解する」で説明した、分散処理技術で最近注目を浴びているMapReduceもJavaによる実装があります。それは、Apache Hadoopプロジェクトで開発されているものです。このプロジェクトは、もともとはオープンソースの検索ソフトウェアであるAp

tokada 2008/11/19

リンク

Hadoopの解析資料

オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする

tokada 2008/08/26

リンク

space

A Ruby MapReduce Framework Skynet RubyForge Home Documentation See Skynet at RailsConf 08 Sat Mar 31, 2008 4:25pm – 5:15pm PDT @ Portland Ballroom 255 More Info What is Skynet Skynet is an open source Ruby implementation of Google’s MapReduce framework, created at Geni. With Skynet, one can easily convert a time-consuming serial task, such as a computationally expensive Rails migration, into a di

tokada 2008/06/21

リンク

MapReduce - naoyaのはてなダイアリー

"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること