@ITの連載記事「テキストマイニングで始める実践Hadoop活用」の第2回です。この連載ではテキストマイニングを行うHadoopプログラムを作成する方法を解説することで、実際にどうHadoopを活用すればよいかをイメージしてもらうことを目的としています。第1回ではHadoopやMapReduceの概要、環境構築などを解説しています。第2回では著作権が切れた文学作品を集約したWebサイト「青空文庫」のデータを利用し学習させ、任意のテキストからそのテキストを書いた人の寿命を推定するプログラムをHadoopを使って作る方法について解説しています。 はじめはアルゴリズムについてです。テキストからbag-of-wordsと呼ばれる各単語の出現回数を表したデータ構造に変換し、著者の寿命を教師信号[1]に設定します。そして両者間の関係をうまく成立させるための関数を求めるべく、なるべく誤差(損失)が小さく
![Hadoopによるテキストマイニングで著者の寿命を推定する | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/05764efc54855f2bc94b989cbba010b33d6324f9/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2007%2F003_orange.png)