タグ

ブックマーク / cl.naist.jp (2)

  • ChaIME: Term-based Yet Another Input Method Editor

    ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google語 N グラムからの推定 現在2GBの辞書サイズ

    odz
    odz 2008/03/14
  • NAIST Text Corpus

    We annotated the same portion of Mainichi Shimbun Newspaper, which is used for Kyoto Text Corpus. It contains all articles (ca. 20,000 sentences) which start from 1 January 1995 and end with 17 January 1995, and all editorial articles (ca. 20,000 sentences) from January to December. We annotated predicate-argument relation (surface case: nominative, accusative, and dative cases), event noun and it

    odz
    odz 2006/10/25
    NAIST の照応・共参照コーパス。要毎日新聞95年版。
  • 1