昨日のNL190で以前より日記を拝見させていただいていた持橋さんの発表「ベイズ階層言語モデルによる教師なし形態素解析」がありました。辞書なしで文字単位のテキスト(コーパス)処理をして、情報理論的な基準で形態素解析(というか単語分割)を行うというもので、理論的にもよく考えられているようです。言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いない形態素解析を可能にする。これにより, 教師データの存在しない古文や話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。発表は分かりやすく、結果はかな漢字変換にも応用が効きそうなもので、大変刺激を受けました。理論的な面については付け焼刃でなんとかなるようなものではなさそうなので、持橋さんのサイトで公開されている論文を読みながら勉強してみようと思いま