SimString(mongoDB) 高速かつシンプルな類似文字列検索ライブラリ はじめに SimStringは,類似文字列検索のための高速かつシンプルなライブラリです。 現在、こちらで公開されているライブラリを、データベースにmongoDBを使う仕様にしたものを公開しています。 アルゴリズムの詳細については上記URLを参照ください。 概要 SimStringは,類似文字列検索のための高速かつシンプルなライブラリです. 類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列との類似度が閾値以上のものを,見つけ出す操作です. クエリ文字列と完全に一致しなくても,データベース中の似ている文字列を検索することができるので,スペル訂正,あいまい計算,柔軟な辞書マッチング,重複レコード検出,データベース統合など,様々なアプリケーションを構築できます. SimStringは,類似度関数と