人間、生きてるといろんな情報と出会い、それらをクラスタリングしたくなるのがこの世の常である。機械学習ライブラリは一から自分で実装するよりはすでに実績のあるものを利用するのが良いだろう。まずは Mahout を使ってみる。 テキストコーパスの取得 まずはテキストコーパスを用意する。実験なので無難に青空文庫とかでもいいのだけど、いますぐ分析したい文書があるならそれを使えば良い。君は日頃収集しているソーシャルネットワークの情報を使ってもいいし、運営しているサービスに寄せられたユーザーの声を利用してもいい。 ちなみにいい話判定器に格納されたいい話を使うなんてのも一興である。 形態素解析 我々は日本人である。日本語文書は英語のように単語どうしが空白で区切られていない。そこで形態素解析エンジンを利用する必要があるし、ここではいわゆる分かち書きをする。 シェルスクリプトでの単純な例。 for file