タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

検索とnlpに関するchezouのブックマーク (1)

  • SimString - 高速かつシンプルな類似文字列検索ライブラリ

    SimStringは,類似文字列検索のための高速かつシンプルなライブラリです. 類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列との類似度が閾値以上のものを,見つけ出す操作です. クエリ文字列と完全に一致しなくても,データベース中の似ている文字列を検索することができるので,スペル訂正,あいまい計算,柔軟な辞書マッチング,重複レコード検出,データベース統合など,様々なアプリケーションを構築できます. SimStringは,類似度関数として,コサイン係数,ジャッカード係数,ダイス係数,オーバーラップ係数に対応しています. 文字列の類似度を計算するための特徴量としては,文字nグラムをサポートしています. SimStringには,次のような特徴があります. 高速な類似文字列検索アルゴリズム.Google Web1T の英語単語(13,588,391文字列)から,コサイン類似度が

    chezou
    chezou 2013/02/16
    recall100%を保証する類似文字列検索
  • 1