タグ

全文検索とprogrammingに関するrbyのブックマーク (2)

  • sary: Suffix Arrayのライブラリとツール

    saryとは? sary は Suffix Array のライブラリとツールです。Suffix Array と呼ばれるデータ構造を用いることにより、 10MB, 100MB といっ た巨大なテキストファイルに対する高速な全文検索を実現します。 特定の個所だけにインデックスポイントを割り当てることにより、 特定のフィールドのみを検索対象にすることもできます。 目次 新着情報 特徴 Suffix Arrayの簡単な説明 libsaryのリファレンスマニュアル 付属ツールの使い方 FAQ ダウンロード TODO 関連リンク集 メーリングリスト 新着情報 2005-03-30: sary 1.2.0 公開 ABIが変更されました 細かなバグ修正がされました 2002-09-18: sary 1.0.4 公開 検索結果の表示を高速化しました ヘルプメッセージを修正しました 2001-04-20: さ

  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • 1