自然言語処理をやろうとすると、日本語の場合全ての文字がベタッとくっついているため意味のある最小単位の形態素(単語)に区切ってから処理する必要がある。 そのために、最初に日本語文字列の形態素解析を行う。 ChaSen, KAKASI, MeCab などがあるが、今はMeCabを使うことが多いのではと思う。 とりあえずフリーで使え、よく利用されているMeCabを紹介しようと思う。 インストールついては、環境によって違うので、MeCab公式サイトを参考にして欲しい。 ということで、さっそく使ってみよう。 実行例はUbuntu上である。 $ mecab 吾輩は人工知能である。 吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 人工 名詞,一般,*,*,*,*,人工,ジンコウ,ジンコー 知能 名詞,一般,*,*,*,*,知能,チノウ,チノー