This domain may be for sale!
写真1●「社会の頭脳システム」について説明するNTTドコモ 先進技術研究所ネットワークシステム研究グループの田中 聡 主幹研究員 NTTドコモは2012年12月10日、分散処理ソフト「Apache Hadoop」の企業利用に関するセミナーにおいて、1000台を超えるIAサーバーで構成する社内向けHadoopシステムについて解説、Hadoopの有用性と運用時の課題を説明した。 NTTデータが主催したセミナー「Hadoopエンタープライズソリューションセミナー2012」において、NTTドコモ 先進技術研究所 ネットワークシステム研究グループの田中 聡 主幹研究員が『社会の頭脳システムの構築と運用』と題した講演で紹介した(写真1)。この「社会の頭脳システム」は、モバイル通信インフラを活用して社会の様々な課題解決を支援する新サービスを開発・実行する目的で、ドコモが2009年から取り組んでいる社内向
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
Apache Software Foundation(ASF)傘下のHadoopプロジェクトは12月27日、大規模データ向けの分散処理フレームワーク「Apache Hadoop 1.0.0」をリリースした。HBaseやWebHDFSのサポート、セキュリティやパフォーマンスの強化などが特徴となる。 Hadoop 1.0.0は従来安定版としてリリースされていたバージョン0.20系をベースとした、最新の安定版となる。Hadoopはそのほかにも0.22系および0.23系が平行してリリースされており、12月10日にはバージョン0.22.0が、11月11日には0.23.0がリリースされている。 Hadoop 1.0.0の新機能としてはバグ修正やセキュリティの強化に加え、ドキュメントの強化、HTTP経由でHDFSにアクセスするWebHDFSサポートなどが挙げられている。そのほか、パフォーマンスの強化も行
Hire the best. At 10x the speed.Hire the best. At 10x the speed.Screen and interview candidates 10x faster with MOPID AI Recruiter that saves upto 80% of your time and resources. Hiring 100+ positions? Try⚡Blitzhiring⚡for a change!Hiring 100+ positions?Try ⚡Blitzhiring⚡ for a changeWe get it. Large scale hiring costs a lot. What if you could hire the perfect talent AND save up to 80% resources? We
Blog about all things Python that intersect my work and hobbies Over the past few weeks I've been working on a service in Python that I'm calling, in the tradition of naming projects after characters in Flash Gordon, Zarkov. So what exactly is Zarkov? Well, Zarkov is many things (and may grow to more): Zarkov is an event logger Zarkov is a lightweight map-reduce framework Zarkov is an aggregation
2.入出力 MapReduceは、外から見ると以下のことをするフレームワークです。 ファイルを入力しオブジェクトでできた<Key, Value>ペアに変換する 結果の<Key, Value>ペアを生成する、MapとReduce処理を実行する 別のファイルに出力する このため、「ファイルから入力する」「データをオブジェクト化する」「ファイルに出力する」というクラス群を持っており、MapReduceジョブのJavaプログラムでもこれらにアクセスすることになります。これを理解しておかないと、MapReduceプログラムは理解できそうにありません。 MapReduceの入力と出力のインターフェースは、MapReduceの重要な特徴を持っています。それは、以下の組み合わせでデータのやりとりをすることです。 Hadoop MapReduceの入力と出力は、あらかじめ提供されている「InputForma
しおや「最近クラウド・コンピューティングが流行しているということで、どんな技術があるんだろうとみていくうちに、クラウドのプラットフォームの話、アマゾンのEC2だとかWindows Azureだとかはいっぱい出てるんですけど、それを使って書いたアプリケーションの話はあんまりないな、と。もうひとつは、私はログ管理の製品も担当しているんですが、大量のデータをログとして蓄えないといけないという時に、具体的にクラウドだったらどういうソリューションがあるのかな、と。そう思って色々見渡しているときにクラウドの処理能力を活かしたデータベースということでCouchDBに興味を持ちました。きっかけはIBMのDeveloperWorksの記事を見たことで、今少し使ってみてます」 しおや「この図は結構いろいろ描き込んであるんですけど、CouchDBはErlangというプログラム言語で記述されたデータベースでして、
2010/9/16のHadoopソースコードリーディング第5回@楽天タワーの発表資料です。Read less
Apache Hadoop is a software framework to build large-scale, shared storage and computing infrastructures. Hadoop clusters are used for a variety of research and development projects, and for a growing number of production processes at Yahoo!, EBay, Facebook, LinkedIn, Twitter, and other companies in the industry. It is a key component in several business critical endeavors representing a very sign
ここ数年Javaからは遠ざかっていた。理由は色々だけど、なんか面倒くさいとか、あの辺が面倒だなとか、annotationsがなんか不気味で面倒っぽいなとか、まあそういうことで。あとコンパイルしてjar作ってとか。なんか昔その物じゃないですか。あ、エディタはフルスクリーンなの? カード穿孔機は不要なの? そりゃすごい。 そういうこともあって最近遊んでいるMapReduceはPythonでストリーミングのを書くことでほぼ用は足りているのだけど、この先もしかしたらJavaでしか実現できない状況に追い込まれるかもしれん。それをガリガリとコードで書くのかPigとやらで実現しちゃうのかはわからんが、でもまあ原理を突き詰めるためにコードで苦労しておくのは損はないかな、と。その場合はJavaですよやっぱ。でもね、Javaって面倒じゃないですか。あの辺とかその辺とか。 そんな自分の脳裏にKarmaSpher
Hadoop 調査報告書 エヌ・ティ・ティ レゾナント株式会社 株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項 本報告書はエヌ・ティ・ティ レゾナント株式会社 (以下「NTT レゾナント」)と株式会社 Preferred Infras- tructure(以下「Preferred Infrastructure」) が作成したものですが、報告書の内容及び情報の正確性、完全性、 有用性について、NTT レゾナント及び Preferred Infrastructure は保証を行なっておらず、また、いかなる責 任を持つものでもありません。 本報告書の著作権は NTT レゾナントに帰属します。 本報告書の「プリントアウト」「コピー」「無料配布」は可能ですが、変更、改変、加工、切除、部分利用、要 約、翻訳、変形、脚色、翻案などは禁止します
The document provides information about Hive and Pig, two frameworks for analyzing large datasets using Hadoop. It compares Hive and Pig, noting that Hive uses a SQL-like language called HiveQL to manipulate data, while Pig uses Pig Latin scripts and operates on data flows. The document also includes code examples demonstrating how to use basic operations in Hive and Pig like loading data, perform
5. 6.1 MapReduce ジョブの実行の内幕 MapReduce の実行 やることは、 JobClient.runJob(conf) だけ! だけどその裏では様々なプロセスが動いている P169 6. 6.1 MapReduce ジョブの実行の内幕 裏で動いている登場人物 jobClient jobtracker ジョブの実行管理。 JobTracker をメインクラスに持つ Java アプリケーション tasktracker ジョブを分割して出来たタスク実行。 TaskTracker をメインクラスに持つ Java アプリケーション 分散 FS ( HDFS など) 各プロセス間でのジョブのファイルを共有する為に使用する どのように実行されるか、ステップ毎に説明していきます。 7. MapReduce ジョブの実行遷移図 MapReduce プログラム JobClient Job
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く