岡崎 直観,辻井 潤⼀ ⽂字列の集合 V から以下の部分集合を求める Yx ,α = {y ∈ V | sim( x, y ) ≥ α } ◦ ◦ ◦ ◦ x: 検索クエリ⽂字列(V に含まれなくてもよい) y: 検索されて⾒つかる⽂字列 sim: 類似度関数(コサイン類似度など) α: 類似度の閾値 単純には,クエリ x と |V| 回の類似度計算が必要 これを出来るだけ⾼速に⾏いたい ⽂字列集合 V を辞書と⾒なせば ◦ 曖昧検索,スペル訂正 ⼊⼒されたクエリに近い辞書エントリを探す ◦ 単語セグメンテーション,固有表現抽出における辞書素 性(gazetteer) ⼈名リストや地名リストと柔軟なマッチングで素性を作る ◦ ⾼速な⽂字列クラスタリング 類似度の⾼いペアだけを効率よく⾒つけてクラスタを形成 ⽂字列集合が U と V の2つあるときは ◦ データベース統