タグ

ChaIMEに関するgologo13のブックマーク (5)

  • そろそろChaIMEについて一言いっておくか - 射撃しつつ前転 改

    2月は割とガンガンと開発をしてきたのだが、3月に入ってさすがにエネルギーが切れてきたので、一旦、気分転換にエントリに書いてみることにする。 ChaIMEというのは主に研究目的のかな漢字変換エンジンである。奈良先の小町さん(id:mamoruk)がメインで開発していて、自分もここしばらくはアクティブに開発している。こちらでデモを試すことができる。ChaIMEの特徴はひたすらに統計情報で変換をするところなのだが、今回はそういった話ではなく、もうちょっと一般的なかな漢字変換についての話をダラダラと書いてみようと思う。 デモを見て分かる通り、今までのChaIMEはステートレスで、ひらがな列を入力に対してそれっぽい変換候補を複数出力してさぁ選べ、という形だった。文節境界を変更したり、文節毎に候補を出すことはできない。これは単に実装コストの問題で、研究用途で実験をする際には文節境界を変更してどうたらこ

    そろそろChaIMEについて一言いっておくか - 射撃しつつ前転 改
  • ドッグフードは割とおいしい。-- ChaIME は続くよどこまでも - 武蔵野日記

    ChaIME というのは Preferred Infrastructure の @tkng さんと自分が作っている統計的かな漢字変換エンジンなのだが、コアエンジンだけ作って時間が取れず放置していたら、tkng さんがちょくちょくいじってくれていて、最近は進化して日常的に使えるようになったそうで、新バージョンの ChaIME で生活を始めたらしいので、自分も乗っかってみる(Eat your own dog food. という表現があるそうだが、自分で作ったものを自分で使わないとだめだ、という意味らしい)。 注: 現在まだリリースもコミットもされていません。古いバージョンは上記のリンクからデモが試せます。 tkng さんグッジョブ!! と思って書いていたら「季節」という単語が変換できないので tkng さんに調べてもらったら、どうもこの単語、NAIST-jdic には収録されていないらしい。N

    ドッグフードは割とおいしい。-- ChaIME は続くよどこまでも - 武蔵野日記
  • ChaIMEの現状と将来と(1) - 射撃しつつ前転 改

    そろそろChaIMEについて一言いっておくか を書いてからもう半年以上になる。あれから日記には何も書いていなかったが、開発の方は地道に進めている。最近、自宅で使うかな漢字変換エンジンはChaIMEに切り替えた。まだまだやらないといけない事はたくさんあるが、とりあえず連文節のかな漢字変換エンジンとして体を成してきたかな、というぐらいのところまでは来たと思う。一応学習機能もついたし。まぁ、これからどうするかは、一旦落ち着いて考えたい。 変換精度については、Google語N-gramが使えないという事で、最初はガタガタだったのだが、地道にデータを集めては形態素解析にかけ、コスト間の係数や未知語コストを調節して、という作業を何回か繰り返し、以前と比べると、だいぶ良くはなってきた。ただ、これは作者の贔屓目的な面が否めない。改善の余地はそこかしこにある。まず目につく問題としては、かな漢字モデルの

    ChaIMEの現状と将来と(1) - 射撃しつつ前転 改
  • ChaIME

    ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google語 N グラムからの推定 現在2GBの辞書サイズ

  • かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記

    id:tkng さんが、現状の ChaIME について紹介して、これからの開発研究体制について話したい、ということで、京大に集まってミーティング。京大の森さんたちが作っている変換エンジン KAGAMI も9月くらいから格稼働している(少なくとも森さんは常用している)そうで、データやサーバ、ライブラリなど共通化できるところは共通化しましょう、というわけで、総勢5人でお昼から夕(学生さんは free pizza と free beer (笑))を挟んで11時近くまで、スライド使ったりデモしたりコード見たり雑談したり、いろいろ。 今後の方針については、tkng さんがものすごくがんばってくれてメモリ・ディスク使用量、処理時間ともに1/25くらいになって使えるようになってきた(現在 tkng さんと自分の2人が常用している)実用的にしたいと思う反面、実用的にするためにごちゃごちゃした変更を加え

    かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記
    gologo13
    gologo13 2010/04/02
    ブックマークした日から約3か月.今ならある程度書いてあることがわかる.問題は学習かぁ
  • 1