タグ

c++とnlpに関するrestartrのブックマーク (2)

  • スライド 1

    岡崎 直観,辻井 潤⼀ ⽂字列の集合 V から以下の部分集合を求める Yx ,α = {y ∈ V | sim( x, y ) ≥ α } ◦ ◦ ◦ ◦ x: 検索クエリ⽂字列(V に含まれなくてもよい) y: 検索されて⾒つかる⽂字列 sim: 類似度関数(コサイン類似度など) α: 類似度の閾値 単純には,クエリ x と |V| 回の類似度計算が必要 これを出来るだけ⾼速に⾏いたい ⽂字列集合 V を辞書と⾒なせば ◦ 曖昧検索,スペル訂正 ⼊⼒されたクエリに近い辞書エントリを探す ◦ 単語セグメンテーション,固有表現抽出における辞書素 性(gazetteer) ⼈名リストや地名リストと柔軟なマッチングで素性を作る ◦ ⾼速な⽂字列クラスタリング 類似度の⾼いペアだけを効率よく⾒つけてクラスタを形成 ⽂字列集合が U と V の2つあるときは ◦ データベース統

    restartr
    restartr 2010/03/11
    [filetype:pdf][media:document]
  • SimString - A fast and simple algorithm for approximate string matching/retrieval

    A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl

    restartr
    restartr 2010/03/10
    類似度文字列検索。もしかして検索の実装。
  • 1