[B! postgresql][text-mining] nabinnoのブックマーク

nabinno id:nabinno

postgresqlとtext-miningに関するnabinnoのブックマーク (4)

テキスト検索の方法とインデックス — Let's Postgres
板垣貴裕テキスト検索にもさまざまな方法があります。大量のテキストを検索するにはインデックスを使って検索したいところですが、どんな検索にも応えられるインデックスというものは、さすがに存在しません。それぞれのアプリケーションの条件に適したテキスト検索方法やインデックスの張り方を選んで行きましょう。今回説明するテキスト検索の方法の一覧を以下に挙げます。PostgreSQL ユーザが「全文テキスト検索」というと「単語単位の検索」を指すことが多いようです。また、「中間一致検索」が「あいまい検索」と呼ばれることもあるようです。用語が厳密な意味で使われないことも多いようなので、文脈には注意して解釈してください。「単語単位の検索」と「中間一致検索」では、追加のモジュールを導入することで日本語全文検索が可能なインデックスを作成できます。こちらは説明の後半で紹介します。以下、本記事の内容です。テキス
nabinno 2016/05/20
lets-postgres

postgresql

rdbms

database
リンク
textsearch-ja: Project Home Page
形態素解析を使用した、組み込み型の日本語全文検索です。この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。バグレポートメーリングリストへの参加概要日本語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、英語文書の検索と同様の方法で、日本語文書を検索することができます。検索は形態素解析を利用した単語単位で行われます。形態素解析には MeCab を使用しています。利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。また、既に tsea
nabinno 2016/05/08
postgresql

rdbms

database

mecab

text-mining
リンク
textsearch_senna
N-gram を使用した、組み込み型の日本語全文検索です。ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。バグレポートメーリングリストへの参加概要インストールテキスト検索機能 %% 演算子 @@ 演算子インデックス (senna) インデックス・オプション (WITH) インデックスのメンテナンス senna.drop_index() senna.reindex_index() 不要ファイルの調査 TODO 概要日本語テキストの全文検索を行います。形態素解析ベースである textsearch-ja とは異なり、textsearch_senna では N-gram ベースの全文検索を行います。検索には、全文検索エンジン Senna を使用しています。利点として、文字すべてをインデックス化するため LIKE 中間一致検索に近い結果
nabinno 2016/05/08
postgresql

rdbms

database

senna

text-mining
リンク
textsearch-ja: Project Home Page
形態素解析を使用した、組み込み型の日本語全文検索です。ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。バグレポートメーリングリストへの参加概要インストール依存関係 MeCab テキスト検索機能インデックス (tsvector, tsquery) 検索結果の強調 (ts_headline) 解析結果の表示 (ts_debug) 類義語 (synonym) ストップワード (stop word) その他の検索用関数 Web検索互換クエリ (web_query) 日本語解析機能テキストの正規化 (ja_normalize) 分かち書き (ja_wakachi) mecab による解析 (ja_analyze) ふりがな (furigana) ひらがな変換 (hiragana) カタカナ変換 (katakana) TODO 概要日本語テキ
nabinno 2016/05/08
postgresql

rdbms

database

mecab

text-mining
リンク
1