最近そこそこに忙しくてなかなか自由時間がとれないのでコード書きたい欲が大分溜まっています。 そんなところに大学の自然言語処理を扱う授業の輪講の順番が回ってきたので、スライドを作るついでにデモプログラムを書くことにしました。 どうも自然言語処理の分野ではPythonが強くRubyにはあまりライブラリが充実していないらしいのですが、父親から授けられた「まつもとゆきひろ コードの世界」が本棚からオーラを放っていたのでRubyで書いてみることに。 やっていること 形態素解析。辞書データをもとに文章をばらばらにします。 NAIST辞書 http://sourceforge.jp/projects/naist-jdic/ から単語のデータをいただいて、見出し語と単語コストだけ抜き出して辞書ファイルを作りました。 それをHashに読み込んで使っています。 以下メソッドの説明。 longestMatch(