タグ

研究と言語に関するbasiのブックマーク (1)

  • Unsupervised segmentation of Chinese text by use of branching entropy - 射撃しつつ前転 改

    Unsupervised segmentation of Chinese text by use of branching entropy(Z. Jin and K. Tanaka-Ishii, 2006)を読んだ。前から知ってたんだけど、実験結果は知らなかったので。基的なアイデアとしては、単語内ではPerplexityは低いが単語境界ではPerpexityは高くなるであろうという事を利用して、Perlpexityの上昇するところを単語境界とみなそうというもの。言語モデルとしてはN-gramを利用(N=6)。 実験結果としては精度90%, 再現率80%ぐらい。精度は学習データ量にはほとんど影響を受けない。再現率は使用するデータ量の増加によって向上する。 失敗するのは以下のような例。 日付とか時間とか、数値 一文字で構成される単語 複合単語(正解コーパスと切り方が変わってしまう場合が出てく

    Unsupervised segmentation of Chinese text by use of branching entropy - 射撃しつつ前転 改
  • 1