エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント4件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
きまぐれ日記: ajax IME パワーアップ
Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia か... Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。 まず、CRF ベースの分かち書きツール(BIOモデル)を使い、周辺確率の高い単語候補を全日本語 wikipedia から収集。期待頻度が 0.9以下のものは無視し、あと雑多なフィルタリングの後、約 28万の単語候補を抽出。周辺確率から HMM のユニグラム確率を計算して (単純に negative log * 400) 辞書に登録。品詞の推定は現状では難しいので、すべての単語は「名詞、サ変」だと仮定しています。 単語(未知語)抽出は、それなりにうまくいっているようです。カタカナ語はほぼ網羅的に収集できました。「電車男」のような漢字だけの語もそれなりに取れています。 現在の Ajax IME は、語彙
2006/08/03 リンク