以前,latticelmで教師なし形態素解析を試して,人間の単語分割基準とは異なることを確認しました. 教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記人間の単語分割基準に近づけるには半教師あり学習などの方法が考えられますが,ここでは既存の形態素解析器を使える簡単なやり方として,mecabで分かち書き済みのコーパスにlatticelmを適用してみることにしてみます.これは,1つの単語を1つの文字とみなして教師なし形態素解析を適用することに相当します.mecabのような形態素解析器は未知語に遭遇すると単漢字に分解してしまう傾向があるため,それをくっつけ直す効果が期待できると考えられます.というわけで,Wikipediaから1000文をmecabで分かち書きした結果をlatticelmにかけてみた結果がこちら.$ head out/samp.100 アンパサン