ChaIME: 大規模コーパスを用いた統計的仮名漢字変換 トップに戻る 統計的仮名漢字変換 統計的仮名漢字変換では、与えられた仮名文字列の入力yに対して変換候補 xを条件付き確率P(x|y)の降順に提示します。仮名文字列が来たときに仮名漢字 交じり文になる確率です。この確率値が高い順に変換結果が並んでいて くれればいいわけです。言い換えると、確率値最大のものがもっとも尤もらしい 変換候補となり、尤もらしさ順に確率値が並んでいることが統計的仮名漢字変換 の基本原理となります。 さて、直接P(x|y)を推定する方法があればそのまま仮名漢字変換に用いること ができるのですが、一般にこの確率値を直接推定することは難しいため、 近似を用いて推定することになります。 この定式化は統計的機械翻訳や音声認識と同様で、ベイズの定理を用いることに よってP(x|y)はP(y|x)とP(x)の積として推定するこ
ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定 現在2GBの辞書サイズ
中原平和公園の南側、中原区木月住吉町にイオン系列のスーパー マーケット「マックスバリュ元住吉店」がオープンすることになりました。 ■マックスバリュ元住吉店 オープン予定地マップ 最寄り駅は元住吉駅で、駅からオズ通り商店街をまっすぐ歩き、 綱島街道をわたってそのまま直進したところにあります。 武蔵小杉方面からですと、綱島街道を労災病院前の交差点(中原 平和公園の角)で曲がり、苅宿小田中線を直進した先にあたります。 ■マックスバリュ元住吉店 オープン予定地 現地は、現在何も利用されていない更地になっています。ここは 従来は株式会社フジソク(本社:木月住吉町)の本社別館があった ところです。 店舗は1階建てですが、敷地全体の面積は2,728.95㎡ありますので、 それなりの広さの店舗になりそうです。 ■オープン予定地から見える再開発マンション ここから北側を見ると、THE KOSUGI TOWE
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く