タグ

c++とsearchに関するfcicqのブックマーク (3)

  • Homepage of Veli Mäkinen

    Software by Veli Mäkinen Compressed Data Structures Most newer implementations can be found at group pages SuDS and GSA. Below my older compressed data structure implementations. Some of them are now plugged into Pizza & Chili Corpus, that contains library implementations of several compressed text indexes and testbed data collections. Implementation of the Compact Suffix Array index structure (CP

    fcicq
    fcicq 2011/02/09
    compressed suffix array & fm index
  • FM-index++を公開しました - Yasuo Tabeiの日記

    FM-indexのC++による実装 FM-index++を公開しました。 http://code.google.com/p/fmindex-plus-plus/ FM-index[1〜4]とは、圧縮全文索引の一種でO(n)時間とO(nlgσ)メモリー(n:テキスト長、σ:文字種類数)で構築することができます。最近では、テキスト処理ばかりでなくゲノム検索[5]など、いろいろなところで応用されています。今回は、クエリーに対する検索操作の内、exact検索、ハミング距離による検索、編集距離による検索の3つを実装しました。それぞれの計算時間は、qがクエリーの長さとすると、exact検索がO(q)時間、 ハミング距離による検索がO(q^σ)時間、編集距離による検索がO((q \times q)^σ)時間です。よって、4文字種のDNAや20文字種のタンパク質など、文字種類数が少ない対象にはハミング距離

    FM-index++を公開しました - Yasuo Tabeiの日記
    fcicq
    fcicq 2010/12/31
    exact search, edit distance search
  • SimString - A fast and simple algorithm for approximate string matching/retrieval

    A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl

    fcicq
    fcicq 2010/12/30
    A fast and simple algorithm for approximate string retrieval
  • 1