tsupoのブックマーク - はてなブックマーク

きまぐれ日記: ajax IME パワーアップ

Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。まず、CRF ベースの分かち書きツール(BIOモデル)を使い、周辺確率の高い単語候補を全日本語 wikipedia から収集。期待頻度が 0.9以下のものは無視し、あと雑多なフィルタリングの後、約 28万の単語候補を抽出。周辺確率から HMM のユニグラム確率を計算して (単純に negative log * 400) 辞書に登録。品詞の推定は現状では難しいので、すべての単語は「名詞、サ変」だと仮定しています。単語(未知語)抽出は、それなりにうまくいっているようです。カタカナ語はほぼ網羅的に収集できました。「電車男」のような漢字だけの語もそれなりに取れています。現在の Ajax IME は、語彙

tsupo 2006/07/31

Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。 → 語彙が増えた

リンク

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

tsupo 2005/11/07

tf-idf は、単なるヒューリスティックスだと考えられていましたが、……

リンク

http://chasen.org/~taku/blog/archives/2005/10/popularity_qual.html

tsupo 2005/10/13

一定の無作為性をシステムにわざと投入する

リンク

Ajax を使った日本語 IME

最近はやりの Ajax で簡易IMEを作ってみました。適当な「ローマ字列」もしくは「ひらがな列」を入力してください. リアルタイムにかな漢字変換を行います. 変換候補の修正等はできません. 拙作の形態素解析器MeCabを変換エンジンとして使っています. Google suggest 風に変換候補を出したいですが, かなり大変そうです. 変換エンジンは複数の候補を出しているので, UI の問題だけです. こちらに, この IME とKWICを組み合わせたテキスト検索ツールがあります. あわせて御覧ください.

tsupo 2005/06/02

最近はやりの Ajax で簡易IMEを作ってみました。

リンク

Ajax を使った日本語 IME + KWIC

IME と KWICの合わせ技です. 杉田玄白プロジェクトの日本語文書を検索します. IMEで複数候補出力し, 検索しています. まるで migemo です. ただし, かな漢字変換をしているため文節(単語境界)をまたぐ場合も動作します. 検索はすべてバックエンドで行われるので, 大量テキストの検索に向いていると思います. クエリ

tsupo 2005/06/02

IME と KWICの合わせ技

リンク

はてなブックマーク

タグ

ブックマーク / chasen.org/~taku (5)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / chasen.org/~taku (5)

きまぐれ日記: ajax IME パワーアップ

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

http://chasen.org/~taku/blog/archives/2005/10/popularity_qual.html

Ajax を使った 日本語 IME

Ajax を使った 日本語 IME + KWIC

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Ajax を使った日本語 IME

Ajax を使った日本語 IME + KWIC