タグ

@ITとMapReduceに関するwasaiのブックマーク (3)

  • Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム:テキストマイニングで始める実践Hadoop活用(最終回)(1/3 ページ) Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上 前回の「実践! 「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。 今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
    wasai
    wasai 2011/10/03
    あとで読んでおこう
  • 次世代Hadoopの特徴は、MapReduce 2とGiraph - @IT

    次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来 有限会社オングス 後藤 大地 2011/9/15 ■ 増え続けるHadoop活用企業 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!楽天クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館EMC、PFI、ウル

    wasai
    wasai 2011/09/16
    読んでおこう
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1