エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Hadoopによるテキストマイニングで著者の寿命を推定する | gihyo.jp
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Hadoopによるテキストマイニングで著者の寿命を推定する | gihyo.jp
@ITの連載記事「テキストマイニングで始める実践Hadoop活用」の第2回です。この連載ではテキストマイニ... @ITの連載記事「テキストマイニングで始める実践Hadoop活用」の第2回です。この連載ではテキストマイニングを行うHadoopプログラムを作成する方法を解説することで、実際にどうHadoopを活用すればよいかをイメージしてもらうことを目的としています。第1回ではHadoopやMapReduceの概要、環境構築などを解説しています。第2回では著作権が切れた文学作品を集約したWebサイト「青空文庫」のデータを利用し学習させ、任意のテキストからそのテキストを書いた人の寿命を推定するプログラムをHadoopを使って作る方法について解説しています。 はじめはアルゴリズムについてです。テキストからbag-of-wordsと呼ばれる各単語の出現回数を表したデータ構造に変換し、著者の寿命を教師信号[1]に設定します。そして両者間の関係をうまく成立させるための関数を求めるべく、なるべく誤差(損失)が小さく