[B! hadoop] takatoshi-maedaのブックマーク

takatoshi-maeda id:takatoshi-maeda

hadoopに関するtakatoshi-maedaのブックマーク (7)

Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
「Mobageの大規模データマイニング」PRMU 2011 Big Data and Cloud で講演してきました http://d.hatena.ne.jp/hamadakoichi/20111229/p1Read less
takatoshi-maeda 2012/01/12
hadoop

機械学習
リンク
「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました - hamadakoichi blog
電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」＠幕張メッセ国際会議場で招待講演をしてきました。「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop View more presentations from Koichi Hamada 2900万人以上の登録会員をかかえるモバイルソーシャルゲームプラットフォーム「Mobage」では、１日20億超の行動情報が蓄積されています。これらの大規模行動データを対象に、データマイニング・機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗
takatoshi-maeda 2012/01/05
hadoop

機械学習
リンク
Apache Hadoop 0.23リリース | gihyo.jp
2011年11月15日、大規模分散処理システム「Apache Hadoop」のバージョン0.23がリリースされました（図1⁠）⁠。現在の安定バージョンは0.20であり、マイナーバージョン番号が奇数の場合は開発バージョンを表すので、本番環境への導入は推奨されていません。図1 今回のバージョンアップにより内部の設計が大幅に変更されました。何と言ってもHadoopの根幹となる処理フレームワークMapReduceについて再設計が行われ、MapReduceアルゴリズムに限らない柔軟な処理が行えるフレームワークへと進化し、MapReduce 2.0またはYARN（Yet Another Resource Negotiator）と名付けられています。また、HDFS（Hadoop Distributed File System）についてもSPOF（Single Point Of Failure）問題を抱
takatoshi-maeda 2011/12/29
hadoop
リンク
第3回　Amazon Elastic MapReduceを学ぶ（前編） | gihyo.jp
はじめにこんにちは、adingoの岩川です。ビッグデータという言葉が浸透して、実際に向き合う機会も増えてきていると感じます。ビッグなデータを処理するには相応の計算パワーが必要です。分散処理システムを使って対処するのは一般的な方法ですが、分散処理システムを1から組むのは大変なので、Hadoop MapReduceベースのシステムが広く利用されています。 Hadoop MapReduceにおいては、ユーザはMapReduceと呼ばれる計算モデルに従って、Map処理、Reduce処理と呼ばれる計算内容のコア部分だけを書けばよく、タスク配分や通信などをケアする必要がありません。これによって、プログラミングのコストを大幅に減らすことが可能なのです。しかしながら、実はHadoopクラスタの管理は決してラクなものではありません。何台ものサーバをセットアップし、Hadoopをインストールしてやり
takatoshi-maeda 2011/12/23
aws

hadoop
リンク
Mapreduce2.0 - 急がば回れ、選ぶなら近道
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
takatoshi-maeda 2011/10/21
hadoop
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
takatoshi-maeda 2011/06/23
hadoop
リンク
『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011
『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less
takatoshi-maeda 2011/02/23
hadoop
リンク
1