[B! c++][nlp] restartrのブックマーク

restartr id:restartr

c++とnlpに関するrestartrのブックマーク (2)

スライド 1
岡崎直観，辻井潤⼀⽂字列の集合 V から以下の部分集合を求める Yx ,α = {y ∈ V | sim( x, y ) ≥ α } ◦ ◦ ◦ ◦ x: 検索クエリ⽂字列（V に含まれなくてもよい） y: 検索されて⾒つかる⽂字列 sim: 類似度関数（コサイン類似度など） α: 類似度の閾値単純には，クエリ x と |V| 回の類似度計算が必要これを出来るだけ⾼速に⾏いたい⽂字列集合 V を辞書と⾒なせば ◦ 曖昧検索，スペル訂正⼊⼒されたクエリに近い辞書エントリを探す ◦ 単語セグメンテーション，固有表現抽出における辞書素性（gazetteer）⼈名リストや地名リストと柔軟なマッチングで素性を作る ◦ ⾼速な⽂字列クラスタリング類似度の⾼いペアだけを効率よく⾒つけてクラスタを形成⽂字列集合が U と V の２つあるときは ◦ データベース統
restartr 2010/03/11
[filetype:pdf][media:document]

*コンテンツ

NLP

algorithm

類似文字列検索

c++
リンク
SimString - A fast and simple algorithm for approximate string matching/retrieval
A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl
restartr 2010/03/10
類似度文字列検索。もしかして検索の実装。

*開発

ライブラリ

c++

algorithm

nlp
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx