タグ

mapreduceに関するtokadaのブックマーク (13)

  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • A Comparison of Approaches to Large-Scale Data Analysis - MapReduce vs. DBMS Benchmarks

    A Comparison of Approaches to Large-Scale Data Analysis: MapReduce vs. DBMS Benchmarks Overview 04/14/2009 - SIGMOD 2009 Paper The following information is meant to provide documentation on how others can recreate the benchmark trials used in our SIGMOD 2009 paper. Our experiments were conducted on a 100-node cluster at the University of Wisconsin-Madison; each node had a single 2.40 GHz Intel Cor

  • MapReduce on Tyrant - mixi engineer blog

    先日、隅田川の屋形船で花見と洒落込んだのですが、その日はまだ一分咲きも行ってなくて悲しい思いをしたmikioです。今回はTokyo Tyrant(TT)に格納したデータを対象としてMapReduceのモデルに基づく計算をする方法について述べます。 MapReduceとは Googleが使っているという分散処理の計算モデルおよびその実装のことだそうですが、詳しいことはググってください。Googleによる出自の論文やApacheプロジェクトによるHadoopなどのオープンソース実装にあたるのもよいでしょう(私は両者とも詳しく見ていませんが)。 今回の趣旨は、CouchDBMapReduceと称してJavaScriptで実現しているデータ集計方法をTTとTCとLuaでやってみようじゃないかということです。簡単に言えば、以下の処理を実装します。 ユーザから計算開始が指示されると、TTは、DB内の

    MapReduce on Tyrant - mixi engineer blog
  • Amazon Elastic MapReduceを使ってみた - moratorium

    Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

  • Big Data Platform - Amazon EMR - AWS

    Run big data applications and petabyte-scale data analytics faster, and at less than half the cost of on-premises solutions. Build applications using the latest open-source frameworks, with options to run on customized Amazon EC2 clusters, Amazon EKS, AWS Outposts, or Amazon EMR Serverless.

    Big Data Platform - Amazon EMR - AWS
  • Groovin' High:map reduceで感じる未来 - livedoor Blog(ブログ)

    「しらなーい」って人に、何人か会ったので、ちょっと解説しながら話をすすめます。 いつも大量のデータを処理しているGoogleが、「バックエンドでこんなことやって効果を上げてます。」という論文を2004年に発表した。 そこに書かれているのは、分散処理のためのデザインパターン「MapReduce」。 大量データをいくつかの単位に分割して、キーと値に分割する処理(Map)と、それを集計する処理(Reduce)に分ける事で、処理単位同士の関連性を希薄化し、その結果分散並列処理を可能にする。というもの。 このデザインパターンを実装したオープンソース製品が、世界中にうじゃうじゃあるんだけど、一番有名なのが、Javaで実装された「Hadoop」。 Javaで実装されてるから、Javaで利用すればいいんだけど、こいつにはstreamingという機能も搭載されていて、他の言語でもMapReduceを実装でき

  • GoogleのMapReduceは僕たちに必要か? - きしだのはてな

    ということで、Google MapReduceの実装であるHadoopを使ったMapReduceと、JMSを使ったMapReduceをやってみました。 メッセージキューを使って分散MapReduceを実装する HadoopでのMapReduceを気軽に試すサンプル これ何のためにやったかというと、そこらにあるような数十台規模のサーバーを前提としたときに、Hadoopの有効性、ひいてはその元になってるGoogle MapReduceの有効性について疑問に思ったからです。そこで、ちょっと試してみた、と。 ここで、メッセージキューを使った場合に1秒でできてた処理が、Hadoopを使うとスタンドアロンモードでも40秒近くかかりました。擬似分散モードだと4分近くです。 いくらHadoopの実装がひどいとしても、これはあんまりです。 Googleでの実装はもっと効率的なものになっていると思いますが、そ

    GoogleのMapReduceは僕たちに必要か? - きしだのはてな
  • メッセージキューを使って分散MapReduceを実装する 2009-02-16 - きしだのはてな

    さて、JMSでメッセージキューも使えるようになって、HadoopでMapReduceも試してみた。そうするとやりたくなるのがメッセージキューを使った分散MapReduceの実装ですね。ということで、JMSを使ってメッセージキューによる分散MapReduceをやってみました。実際にはローカルでしか動かないのですが、コンセプトモデルということで。 メッセージキューで遊びたいのでJMSを試す HadoopでのMapReduceを気軽に試すサンプル Hadoopサンプルで作ったのと同じように、クラスがJavaファイル中でimportされている回数を数えてみます。 考え方として、ちょっと強引ですが、GoogleやHadoopのMapReduceは分散ファイルシステム付きメッセージキューといえます。けど小規模につつましくやる分には分散ファイルシステムは必要ないので、MapとReduceを分散することだ

    メッセージキューを使って分散MapReduceを実装する 2009-02-16 - きしだのはてな
  • 本を読む 楽天でROMAとfairyの話を聞いてきた

    火曜日のHadoopの話に続き、土曜日には「楽天テクノロジーカンファレンス」でROMAとfairyの話を聞いてきました。fairyはようするに楽天MapReduce、ROMAは楽天版memcached(よりストレージ寄り)という感じのソフトです。 以下、メモ。 レコメンド&パーソナライゼーション(楽天技研 西岡氏) (emasaka注:これはROMAとfairyのセッションの直前のセッションだけど、関連性が強いので、関連する部分のみ切り出し) 楽天でレコメンデーションをやる場合、規模が膨大という特徴がある。何千万もの会員と2,500万の商品の組み合わせ。その対策として、Locality Sensitive Hashingなどアルゴリズムを改良すると同時に、多数のマシンを組みあわせている。そのために、現時点ではHadoopを使ってMapReduce処理をし、k-meansのクラスタリングや

  • イロイロな分散処理技術とイマドキのWebサービス

    最近注目を浴びている分散処理技術MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Javaはネットワークを利用した分散処理にも強い Javaはネットワークプログラミング向けのjava.netパッケージが標準で備わっていることからも分かるように、もともとネットワークを強く意識した言語仕様となっています。そのため筆者は、「Javaはネットワークを利用した分散処理にも強い」というイメージを持っています。前回の「GoogleMapReduceアルゴリズムをJavaで理解する」で説明した、分散処理技術で最近注目を浴びているMapReduceもJavaによる実装があります。 それは、Apache Hadoopプロジェクトで開発されているものです。このプロジェクトは、もともとはオープンソースの検索ソフトウェアであるAp

    イロイロな分散処理技術とイマドキのWebサービス
  • Hadoopの解析資料

    オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする

  • space

    A Ruby MapReduce Framework Skynet RubyForge Home Documentation See Skynet at RailsConf 08 Sat Mar 31, 2008 4:25pm – 5:15pm PDT @ Portland Ballroom 255 More Info What is Skynet Skynet is an open source Ruby implementation of Google’s MapReduce framework, created at Geni. With Skynet, one can easily convert a time-consuming serial task, such as a computationally expensive Rails migration, into a di

  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • 1