タグ

全文検索に関するorangehatのブックマーク (3)

  • テキスト検索の方法とインデックス — Let's Postgres

    板垣 貴裕 テキスト検索にもさまざまな方法があります。大量のテキストを検索するにはインデックスを使って検索したいところですが、どんな検索にも応えられるインデックスというものは、さすがに存在しません。それぞれのアプリケーションの条件に適したテキスト検索方法やインデックスの張り方を選んで行きましょう。 今回説明するテキスト検索の方法の一覧を以下に挙げます。PostgreSQL ユーザが「全文テキスト検索」というと「単語単位の検索」を指すことが多いようです。また、「中間一致検索」が「あいまい検索」と呼ばれることもあるようです。用語が厳密な意味で使われないことも多いようなので、文脈には注意して解釈してください。 「単語単位の検索」と「中間一致検索」では、追加のモジュールを導入することで日語全文検索が可能なインデックスを作成できます。こちらは説明の後半で紹介します。以下、記事の内容です。 テキス

  • サイト内の検索にGoogle.comを使う方法

    サイト内の検索にGoogle.comを使う方法 site:, JavaScript, CGI, as_sitesearch 結城 浩 目次 はじめに JavaScriptを用いてサイト内検索 PerlCGIを用いてサイト内検索 独自ドメインを持っていない場合にはキーワードを埋め込んでおく(その1) 独自ドメインを持っていない場合にはキーワードを埋め込んでおく(その2) 独自ドメインを持っていない場合にはinurlを使う メーリングリストの記事検索にGoogleを使う 社内文書の検索にはGoogleは使えない 簡単な解決方法(as_sitesearchを使う) Googlize! --- 自動的にグーグルの検索ボックスを作るCGI リンク 更新履歴 はじめに サイト内の検索にGoogle.comを使う方法を考えてみましょう。 検索サイトGoogle.comの検索用のテキスト入力のところでs

  • 全文検索システム Hyper Estraier

    概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種

  • 1