タグ

postgresqlとtext-miningに関するnabinnoのブックマーク (4)

  • テキスト検索の方法とインデックス — Let's Postgres

    板垣 貴裕 テキスト検索にもさまざまな方法があります。大量のテキストを検索するにはインデックスを使って検索したいところですが、どんな検索にも応えられるインデックスというものは、さすがに存在しません。それぞれのアプリケーションの条件に適したテキスト検索方法やインデックスの張り方を選んで行きましょう。 今回説明するテキスト検索の方法の一覧を以下に挙げます。PostgreSQL ユーザが「全文テキスト検索」というと「単語単位の検索」を指すことが多いようです。また、「中間一致検索」が「あいまい検索」と呼ばれることもあるようです。用語が厳密な意味で使われないことも多いようなので、文脈には注意して解釈してください。 「単語単位の検索」と「中間一致検索」では、追加のモジュールを導入することで日語全文検索が可能なインデックスを作成できます。こちらは説明の後半で紹介します。以下、記事の内容です。 テキス

  • textsearch-ja: Project Home Page

    形態素解析を使用した、組み込み型の日語全文検索です。 この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 日語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、 英語文書の検索と同様の方法で、日語文書を検索することができます。 検索は形態素解析を利用した単語単位で行われます。 形態素解析には MeCab を使用しています。 利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。 また、既に tsea

  • textsearch_senna

    N-gram を使用した、組み込み型の日語全文検索です。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 インストール テキスト検索機能 %% 演算子 @@ 演算子 インデックス (senna) インデックス・オプション (WITH) インデックスのメンテナンス senna.drop_index() senna.reindex_index() 不要ファイルの調査 TODO 概要 日語テキストの全文検索を行います。 形態素解析ベースである textsearch-ja とは異なり、textsearch_senna では N-gram ベースの全文検索を行います。 検索には、全文検索エンジン Senna を使用しています。 利点として、文字すべてをインデックス化するため LIKE 中間一致検索に近い結果

  • textsearch-ja: Project Home Page

    形態素解析を使用した、組み込み型の日語全文検索です。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 インストール 依存関係 MeCab テキスト検索機能 インデックス (tsvector, tsquery) 検索結果の強調 (ts_headline) 解析結果の表示 (ts_debug) 類義語 (synonym) ストップワード (stop word) その他の検索用関数 Web検索互換クエリ (web_query) 日語解析機能 テキストの正規化 (ja_normalize) 分かち書き (ja_wakachi) mecab による解析 (ja_analyze) ふりがな (furigana) ひらがな変換 (hiragana) カタカナ変換 (katakana) TODO 概要 日語テキ

  • 1