タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

KKCとkyteaに関するgologo13のブックマーク (1)

  • ChaIMEで変換できる単語を増やした - 射撃しつつ前転 改

    ブログなどをクロールしてきたデータをmecabで解析して作ったコーパスからモデルを学習させていたのだが、mecabは決定的に読みをつけるので、例えば「にほん」で「日」が変換できない(mecabは"にっぽん"と読みをつける)。日常生活で使っていると、これは結構な問題だ。よく使う駅名が正しい読みで入力できなかったりして、それが結構辛い。と言うわけで、mecabで形態素解析した後に、名詞の読みだけ適当に確率的に揺らしながらつけ直す、という作業をしてコーパスを作り直してみた。変換精度は下がった感じだが、「にほん/日」問題なんかが解決できたので、だいぶ使いやすくはなったと思う。 名詞であっても適当にunigramで読みを揺らしてやると変換精度が下がるというのは、例えば、「道」をなんと読むべきかは、「自動車道」とか「道の駅」で違う、つまりコンテキストに大きく影響される、ということである。まぁわかっ

    ChaIMEで変換できる単語を増やした - 射撃しつつ前転 改
  • 1