「Mobageの大規模データマイニング」PRMU 2011 Big Data and Cloud で講演してきました http://d.hatena.ne.jp/hamadakoichi/20111229/p1Read less
![Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop](https://cdn-ak-scissors.b.st-hatena.com/image/square/c423f1b25d1577b068e1aaa245943f96d4ec99c2/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fprmu2011mobagedatamining-111228111040-phpapp01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
「Mobageの大規模データマイニング」PRMU 2011 Big Data and Cloud で講演してきました http://d.hatena.ne.jp/hamadakoichi/20111229/p1Read less
電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop View more presentations from Koichi Hamada 2900万人以上の登録会員をかかえるモバイルソーシャルゲームプラットフォーム「Mobage」では、1日20億超の行動情報が蓄積されています。これらの大規模行動データを対象に、データマイニング・機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗
2011年11月15日、大規模分散処理システム「Apache Hadoop」のバージョン0.23がリリースされました(図1)。現在の安定バージョンは0.20であり、マイナーバージョン番号が奇数の場合は開発バージョンを表すので、本番環境への導入は推奨されていません。 図1 今回のバージョンアップにより内部の設計が大幅に変更されました。何と言ってもHadoopの根幹となる処理フレームワークMapReduceについて再設計が行われ、MapReduceアルゴリズムに限らない柔軟な処理が行えるフレームワークへと進化し、MapReduce 2.0またはYARN(Yet Another Resource Negotiator)と名付けられています。また、HDFS(Hadoop Distributed File System)についてもSPOF(Single Point Of Failure)問題を抱
はじめに こんにちは、adingoの岩川です。 ビッグデータという言葉が浸透して、実際に向き合う機会も増えてきていると感じます。 ビッグなデータを処理するには相応の計算パワーが必要です。分散処理システムを使って対処するのは一般的な方法ですが、分散処理システムを1から組むのは大変なので、Hadoop MapReduceベースのシステムが広く利用されています。 Hadoop MapReduceにおいては、ユーザはMapReduceと呼ばれる計算モデルに従って、Map処理、Reduce処理と呼ばれる計算内容のコア部分だけを書けばよく、タスク配分や通信などをケアする必要がありません。これによって、プログラミングのコストを大幅に減らすことが可能なのです。 しかしながら、実はHadoopクラスタの管理は決してラクなものではありません。 何台ものサーバをセットアップし、Hadoopをインストールしてやり
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く