ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定 現在2GBの辞書サイズ
12月10日は自分の進捗報告。最近実験している半教師あり語義曖昧性解消について報告。 半教師ありクラスタリングでやるほうが自然じゃないか、というコメントをいただく。確かにそうかもしれない……。 とりあえず SVM との比較について詰めて年次大会に出せるかどうか、というところかなぁ。12月は1週間以上東京なので、時間が取れるかどうか微妙だけど……→結局もう少し寝かせて NL 研に出すことに。
NAIST 情報科学研究科の受験を考えている人に(2) --- TK くんとの手紙 --- この文書は奈良先端科学技術大学院大学(奈良先端大・NAIST)の情報科学研究科に出 願を考えている人・迷っている人・行く気満々の人に向けて書かれています。奈良 の生活というよりは、入った後の研究生活について、大学を変わることの不安などを取 り除けたらというつもりで書いています。 本シリーズ2回目は大学時代の後輩筋に当たる人で、出身や大学院に来る経緯も 似ている人からメールをもらい、2008年のスプリングセミナーに来てもらって NAIST の紹介をしたやりとりについて紹介します。彼は自分と同じく文系から 自然言語処理学講座を希望しているので、同じ境遇の人もいるでしょうし、 参考になるなら、ということで掲載を快諾してくれました。どうもありがとう ございます。 これを読んで参考になった、ここは自分の考え
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く