タグ

ブックマーク / chasen.org/~taku (5)

  • きまぐれ日記: ajax IME パワーアップ

    Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。 まず、CRF ベースの分かち書きツール(BIOモデル)を使い、周辺確率の高い単語候補を全日wikipedia から収集。期待頻度が 0.9以下のものは無視し、あと雑多なフィルタリングの後、約 28万の単語候補を抽出。周辺確率から HMM のユニグラム確率を計算して (単純に negative log * 400) 辞書に登録。品詞の推定は現状では難しいので、すべての単語は「名詞、サ変」だと仮定しています。 単語(未知語)抽出は、それなりにうまくいっているようです。カタカナ語はほぼ網羅的に収集できました。「電車男」のような漢字だけの語もそれなりに取れています。 現在の Ajax IME は、語彙

    tsupo
    tsupo 2006/07/31
    Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。 → 語彙が増えた
  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

    tsupo
    tsupo 2005/11/07
    tf-idf は、単なるヒューリスティックスだと考えられていましたが、……
  • http://chasen.org/~taku/blog/archives/2005/10/popularity_qual.html

    tsupo
    tsupo 2005/10/13
    一定の無作為性をシステムにわざと投入する
  • Ajax を使った 日本語 IME

    最近はやりの Ajax で 簡易IMEを作ってみました。 適当な「ローマ字列」もしくは「ひらがな列」を入力してください. リアルタイムにかな漢字変換を行います. 変換候補の修正等はできません. 拙作の形態素解析器MeCabを 変換エンジンとして使っています. Google suggest 風に変換候補を出したいですが, かなり大変そうです. 変換エンジンは複数の候補を出しているので, UI の問題だけです. こちらに, この IME とKWICを 組み合わせたテキスト検索ツールがあります. あわせて御覧ください.

    tsupo
    tsupo 2005/06/02
    最近はやりの Ajax で 簡易IMEを作ってみました。
  • Ajax を使った 日本語 IME + KWIC

    IME と KWICの合わせ技です. 杉田玄白プロジェクトの日語文書を検索します. IMEで複数候補出力し, 検索しています. まるで migemo です. ただし, かな漢字変換をしているため文節(単語境界)をまたぐ場合も動作します. 検索はすべてバックエンドで行われるので, 大量テキストの検索に向いていると思います. クエリ

    tsupo
    tsupo 2005/06/02
    IME と KWICの合わせ技
  • 1