[B! mapreduce] jitsu102のブックマーク

Basics of Map Reduce Algorithm Explained with a Simple Example

jitsu102 2014/06/01

mapreduce

リンク

Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

jitsu102 2013/11/08

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

jitsu102 2012/11/25

リンク

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

jitsu102 2012/11/12

リンク

次世代Hadoopの特徴は、MapReduce 2とGiraph - ＠IT

次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来有限会社オングス後藤大地 2011/9/15 ■ 増え続けるHadoop活用企業大規模データの分析に、Javaのフレームワーク「Apache Hadoop」（以下、Hadoop）を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル

jitsu102 2011/09/16

リンク

Cloudera製Hadoopによる完全分散モードの構築

Clone via HTTPS Clone with Git or checkout with SVN using the repository’s web address. Cloudera製Hadoopによる完全分散環境の構築構成 VirtualBox上に構築 namenode 1台 datanode 3台ホストオンリーネットワーク 192.168.10.x 内部ネットワーク 192.168.20.x IP: Domain 10: master 11: slave1 12: slave2 13: slave3 公開鍵パスフレーズ無し ssh-keygen -t rsa で作成したものKeyPairを各スレーブにコピーして相互にパス無し接続出来るようにする構築手順参考: http://www.kde.cs.tut.ac.jp/~atsushi/?p=64 共通 $ vim /e

jitsu102 2011/07/05

リンク

Cloudera

Cloudera makes bold bet on strategic acquisition of Verta’s Operational AI Platform Read the blog

jitsu102 2011/07/01

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

jitsu102 2011/06/22

リンク

第2回　Web ConsoleからElastice MapReduceを起動させる | gihyo.jp

前回は、Amazon Elastic MapReduce（EMR）を使うまでに必要なことを説明しました。今回からは実際の使い方を紹介していきます。 Web Consoleに接続するまずはWebブラウザでAWSのWeb Consoleに接続します。AWSの推奨ブラウザはFirefoxです。接続したら、「⁠AWS Management Consoleを利用する」をクリックし、Web Consoleのログイン画面に進みます（図1⁠）⁠。図1 次に、登録に使用したE-mailアドレスとパスワードを使ってWeb Consoleにログインします（図2⁠）⁠。図2 ログインしたら、タプの中からAmazon Elastic MapReduceを選択します（図3⁠）⁠。図3 新しいJob Flowを作成する次に、Create New Job Flowを選択し、新規にMapReduceのJobを作成

jitsu102 2011/01/25

リンク

第1回　Amazon Elastic MapReduceを使う準備をする | gihyo.jp

Amazon Elastic MapReduceとは昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service（AWS）のElastic MapReduce（EMR）です。図1　Amazon Elastic MapReduce AWS、MapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。本連載ではEMRの使い方、気をつけなければいけない点などを重点的

jitsu102 2011/01/16

リンク

S4: Distributed Stream Computing Platform

We've got your back )Buyer Protection ProgramWhen you buy a domain name at Dan.com, you’re automatically covered by our Buyer Protection Program. Our unique & carefully designed domain ownership transfer process is the best rated service in the market. Buyer Protection ProgramWhen you buy a domain name at Dan.com, you’re automatically covered by our unique Buyer Protection Program. Read more about

jitsu102 2010/12/23

mapreduce

リンク

グーグルが構築した大規模システムの現実、そしてデザインパターン（1）～MapReduce編

グーグルが「Evolution and Future Directions of Large-Scale Storage and Computation Systems at Google」（グーグルにおける、大規模ストレージとコンピュテーションの進化と将来の方向性）という講演を、6月に行われたACM（米国計算機学会）主催のクラウドコンピューティングのシンポジウム「ACM Symposium on Cloud Computing 2010」で行っています。グーグルはどのようにして大規模分散システムを構築してきたのか、そして、そこからどのようなことを学んだのかが語られていますし、後半では大規模分散システムのデザインパターンという、非常に興味深いノウハウも公開している、非常に情報量の多い講演です。その講演の内容を、全部で4つの記事、MapReduce編、BigTable編、教訓編、デザイン

jitsu102 2010/10/31

リンク

Google App Engineを使ったMapReduce·Appengine Mapreduce MOONGIFT

Appengine MapreduceはGoogle App Engine用Python製のオープンソース・ソフトウェア。Googleの基礎技術の一つであるMapReduce。膨大な文字列やデータを細かく細分化し、無数のコンピュータ上で並列処理させることで高速なシステムを実現する仕組みだ。実行画面 MapReduceはAmazon Webサービスにも真似されており（Amazon Elastic MapReduce）、有益さが分かっている。だが、どう使えば良いかが今ひとつ実感できないかも知れない。そこでMapReduceを手軽に試せるシステムとして開発されたのがAppengine Mapreduceだ。 Appengine MapreduceはGooglerが開発したソフトウェアで、Google App Engine上で動作する。テキストなどを分散化処理することができる。管理画面から処理を

jitsu102 2010/06/08

リンク

グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作

「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ（いわゆる「Big Data」）の分析を、グーグルのクラウドで可能にします。利用者はGoogle Storage経由で大規模データを転送し、SQLライクな命令によって抽出や分析を行います。まるでグーグルが大規模データ処理のMapReduceをホスティングし、その機能をサービスとして提供するようなものがBigQueryといえます（ただし公開された「BigQuery」の説明には、内部でMapReduceを利用しているのかどうかの記述はないのため、MapReduce「的」なサービスと表現すべきかもしれ

jitsu102 2010/05/27

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

jitsu102 2010/01/27

リンク

Featured Content on Myspace

Help Site Info Privacy Terms Ad Opt-Out Do-Not-Sell My Personal Information A part of the People / Entertainment Weekly Network.

jitsu102 2009/10/27

.NETプラットフォームで動くMapReduce

mapreduce

リンク

Home · documentcloud/cloud-crowd Wiki · GitHub

Dismiss Join GitHub today GitHub is home to over 28 million developers working together to host and review code, manage projects, and build software together. Sign up

jitsu102 2009/09/20

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

jitsu102 2009/08/12

リンク

MapReduce on Tyrant - mixi engineer blog

先日、隅田川の屋形船で花見と洒落込んだのですが、その日はまだ一分咲きも行ってなくて悲しい思いをしたmikioです。今回はTokyo Tyrant（TT）に格納したデータを対象としてMapReduceのモデルに基づく計算をする方法について述べます。 MapReduceとは Googleが使っているという分散処理の計算モデルおよびその実装のことだそうですが、詳しいことはググってください。Googleによる出自の論文やApacheプロジェクトによるHadoopなどのオープンソース実装にあたるのもよいでしょう（私は両者とも詳しく見ていませんが）。今回の趣旨は、CouchDBがMapReduceと称してJavaScriptで実現しているデータ集計方法をTTとTCとLuaでやってみようじゃないかということです。簡単に言えば、以下の処理を実装します。ユーザから計算開始が指示されると、TTは、DB内の

jitsu102 2009/04/07

mapreduce

リンク

Amazon Elastic MapReduceを使ってみた - moratorium

Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

jitsu102 2009/04/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

mapreduceに関するjitsu102のブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス