タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとMapReduceとstudyに関するraimon49のブックマーク (2)

  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
    raimon49
    raimon49 2010/09/16
    Hadoopの使いどころはメモリに載らないサイズの大規模データを扱う場面。関数型プログラミングのmap()とreduce()に当てはめるとバッチ処理のイメージがし易い。とても分かり易い資料。
  • 1