昨日の晩あたりから、形態素解析したい気分だったのでやってみました。 形態素解析というのは以下のようなもの。 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 形態素解析 - Wikipedia 圧縮新聞にも使われているそうです。 「圧縮新聞」を作った - phaの日記 今回は、MeCab(和布蕪)という形態素解析エンジン利用させて頂きました。 Ubuntu環境で実験しましたが、大抵同じような作業で動くと思います。文字コードの指定のみ適時読み替えてください。 ファイルの取得 MeCab本体(mecab-0.97.tar.gz)、辞書ファイル(mecab-ipadic-2.7.0-20070801.