タグ

2011年7月21日のブックマーク (2件)

  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • 計算ミスと計算時間を40%減らす掛け算のやり方 読書猿Classic: between / beyond readers

    特別な場合に計算が簡単になる方法はいくつもあるが、たくさん覚えても出番が限られているから実用性は低い。 二桁の九九を覚えるのは確かに有効だが、準備に時間と労力がかかるので、敬遠されがちである。 結局、適用範囲の広さと習得の容易さのトレードオフから「普通の方法」が浮上してくる。 筆算は、紙を外部記憶として活用することで、計算中の作動記憶の消費を抑え、計算プロセスに割くことのできる認知資源を確保する。 計算が速く確実になるばかりか、計算プロセスの「みえる化」はミスの発見や、計算のさらなる改善へ向けた気づきにもつながる。 実際のところ、計算の遅い人は、しばしば手を止めて、頭に汗をかいて無理をして計算している。 当は、頭で無理をするかわりに、そこで手を動かすべきなのだ。 その方が労は少なくて計算速度は上がる。なによりも無理をすることによる計算ミスが激減する。 人々を筆算においてつまずかせるものは

    計算ミスと計算時間を40%減らす掛け算のやり方 読書猿Classic: between / beyond readers