1週間ほど前に, 京大の Neubigさん から, FST上の教師なし単語分割ツール latticelm [LINK] の実装を公開した, との連絡をもらったので, 試してみました。 このツールは僕が前にやった教師なし形態素解析ができる他 (NTTではどうやっても 僕のコードは公開できないのですが), Neubigさん自身の研究 で, 音声認識結果の音素ラティスからの直接の言語モデル学習が可能なようです。 インストールには普通に OpenFST を configure; make してから, latticelm の ディレクトリでmakeを実行するだけ。以下は京大コーパスに対して実行してみた ものです。 sj205:~/work/neubig/latticelm% time ./latticelm -annealsteps 0 -unkn 5 -burnin 10 -samps 12 -p