タグ

hadoopに関するtakatoshi-maedaのブックマーク (7)

  • Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop

    「Mobageの大規模データマイニング」PRMU 2011 Big Data and Cloud で講演してきました http://d.hatena.ne.jp/hamadakoichi/20111229/p1Read less

    Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
  • 「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました - hamadakoichi blog

    電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop View more presentations from Koichi Hamada 2900万人以上の登録会員をかかえるモバイルソーシャルゲームプラットフォーム「Mobage」では、1日20億超の行動情報が蓄積されています。これらの大規模行動データを対象に、データマイニング・機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗

    「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました - hamadakoichi blog
  • Apache Hadoop 0.23リリース | gihyo.jp

    2011年11月15日、大規模分散処理システム「Apache Hadoop」のバージョン0.23がリリースされました(図1⁠)⁠。現在の安定バージョンは0.20であり、マイナーバージョン番号が奇数の場合は開発バージョンを表すので、番環境への導入は推奨されていません。 図1 今回のバージョンアップにより内部の設計が大幅に変更されました。何と言ってもHadoopの根幹となる処理フレームワークMapReduceについて再設計が行われ、MapReduceアルゴリズムに限らない柔軟な処理が行えるフレームワークへと進化し、MapReduce 2.0またはYARN(Yet Another Resource Negotiator)と名付けられています。また、HDFS(Hadoop Distributed File System)についてもSPOF(Single Point Of Failure)問題を抱

    Apache Hadoop 0.23リリース | gihyo.jp
  • 第3回 Amazon Elastic MapReduceを学ぶ(前編) | gihyo.jp

    はじめに こんにちは、adingoの岩川です。 ビッグデータという言葉が浸透して、実際に向き合う機会も増えてきていると感じます。 ビッグなデータを処理するには相応の計算パワーが必要です。分散処理システムを使って対処するのは一般的な方法ですが、分散処理システムを1から組むのは大変なので、Hadoop MapReduceベースのシステムが広く利用されています。 Hadoop MapReduceにおいては、ユーザはMapReduceと呼ばれる計算モデルに従って、Map処理、Reduce処理と呼ばれる計算内容のコア部分だけを書けばよく、タスク配分や通信などをケアする必要がありません。これによって、プログラミングのコストを大幅に減らすことが可能なのです。 しかしながら、実はHadoopクラスタの管理は決してラクなものではありません。 何台ものサーバをセットアップし、Hadoopをインストールしてやり

    第3回 Amazon Elastic MapReduceを学ぶ(前編) | gihyo.jp
  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • 1