タグ

suffixarrayに関するoverlastのブックマーク (2)

  • CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei

    しばらく前から作っていた全文検索ライブラリtsubomiを公開しておく。 ライブラリは接尾辞配列(Suffix Array)というアルゴリズムを使っていて、入力として与えたキーワードを含む行をテキストデータから探して、その行と出現位置を取得できる。さらに圧縮接尾辞配列(Compressed Suffix Array)による圧縮もサポートしているのでインデックスサイズを小さく抑えることができる。 ライブラリは検索のためのAPIのほかに、インデックス作成、圧縮、検索を行うツールが付属している。ツールを使うだけでも、ある程度のことができる。 以下、簡単に紹介。 tsubomiはGoogleCodeでコードを管理している。詳細は下記URLを参照。 http://code.google.com/p/tsubomi/ コード管理にはsubversionを使っているので $$ svn checkou

    CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei
    overlast
    overlast 2010/09/05
    かっこいい
  • libdbwt-0.3.0 - white page

    こっそり更新。。 "Dynamic Extended Suffix Arrays" という論文に書かれているアルゴリズムがなかなかおもしろかったので、4年ほど前の Dynamic Wavelet Tree を書き直して実装、簡単なライブラリを作ってみました。とりあえず、BWT・Suffix Array・Inverse Suffix Arrayの動的更新が可能になってます。・・遅いけどね。 File: libdbwt-0.3.0 Size: 47,561 bytes SHA1: 747f8aa9f2eeaf5a6769bfe478a4f2dd0a75af92 かなり適当に作ったので、まだバグやコンパイルできない環境があるかもしれない。 ===================== 参考文献 Mikaël Salson, Thierry Lecroq, Martine Léonard and L

    libdbwt-0.3.0 - white page
  • 1