【人力検索】圧縮されたデータを高速に検索するアルゴリズム【類似検索】 ふと気になったので、調べ物をお願いします。 圧縮されたデータを対象に検索を行うアルゴリズムで 下記のようなもので、目ぼしい成果を上げているものを探してください。 (人力検索としては、次の類似を検索する形になります。) [PPT] 高速検索可能なテキスト圧縮法に関する研究 (復号処理を行わずに高速に検索を行う圧縮法の研究) www.tkl.iis.u-tokyo.ac.jp/~otsuka/profile/kenkyu3.ppt くどく補足しますが、「検索インデックスを圧縮することにより高速に検索が行えるようになりました」という種類のものを紹介する回答は不要です。 「gzipで圧縮されたファイルを、自動的に解凍して検索できます」という類のソフトの紹介も不要です。 上に挙げたものそのものも不要です。 ※ 探すのは難しいかもし
SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基本中の基本で,自然言語処理では当たり前のように使われていてもおかしくな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く