PostgreSQLに超高速な日本語全文検索機能を追加するPGroongaを開発している須藤です。今回はPGroongaやpg_bigmなど拡張モジュールを使わずにPostgreSQLの組み込み機能だけで日本語全文検索を実現する方法を紹介します。PGroongaを使う方法はRuby on RailsでPostgreSQLとPGroongaを使って日本語全文検索を実現する方法を参照してください。 Heroku PostgresなどDBaaSとして提供されているPostgreSQLではPGroongaを使えません。(DBaaSとして提供しているベンダーがPGroongaをインストールしてくれないから。)PostgreSQLの組み込み機能だけでは日本語全文検索を満足に実現することができないので、DBaaSのPostgreSQLを使っていると次のように日本語全文検索で困ってしまいます。 日本人のプ
PGroonga(ぴーじーるんが) 0.2.0リリース - PostgreSQL 9.4でGroongaを使える! 今日は今年最初の肉の日ですね! PostgreSQLからGroongaを使えるようにするPGroongaの最初のバージョン、0.2.0をリリースしました! PGroongaは最新のPostgreSQL 9.4で使えます。PostgreSQLからGroongaを使うためのtextsearch_groongaという拡張機能もありますが、この拡張機能はPostgreSQL 9.4や新しいGroongaでは動きませんでした。 PGroongaはtextsearch_groongaをベースに、最新のPostgreSQL・Groongaで動くようにしたものです。 PostgreSQLで日本語全文検索をする方法には次の方法がありますが、それぞれいくつか問題があります。 pg_trgm Po
Air MozillaがバックエンドのデータベースをMySQLからPostgreSQLへ差し替えたことを伝えた。サービスのひとつとして全文検索機能を提供するにあたってPostgreSQLが提供している全文検索機能が適していると判断したとされている。MySQL 5.6も全文検索機能を提供しているが、MySQLはステミングやハイライト機能をサポートしていないという。 どのような判断がなされたか、どのようなツールが使われたか、実際にどういった処理性能かは「Migrating Air Mozilla from MySQL to PostgreSQL」および「Full-text search in Air Mozilla with PostgreSQL」に掲載されている。説明によればMySQLからPostgreSQLへのデータ移行にはpy-mysql2pgsqlが使用されたという。このツールはMyS
調べた経緯 データベースの内容を全文検索したいという要望は定期的にあるので、常に情報は探しているんだけど、PostgreSQLに関しては調べたことなかったので色々調べてみた。 Senna Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン これがスタンダードだった時期もあるんだろうけど、結局PostgreSQL9.x系にインストール出来なかった。 textsearch_sennaを使って動かそうとしたんだけど、そもそも公式サイトで配布されている圧縮ファイルをダウンロードしても、ちゃんとインストール出来ない。 CVSでソースコードをダウンロードして・・・という手順だと動くとMLに書かれていたので、チャレンジしてみたけど結局ダウンロード出来なかった。 ダウンロード出来たとしても、Senna本体が2010年からリリースされてないみたいだから、はっきりいって今更感が
形態素解析を使用した、組み込み型の日本語全文検索です。 この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 日本語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、 英語文書の検索と同様の方法で、日本語文書を検索することができます。 検索は形態素解析を利用した単語単位で行われます。 形態素解析には MeCab を使用しています。 利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。 また、既に tsea
「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧
8.2の正式リリース時期は? 現在β3までリリースされているPostgreSQL 8.2の正式版のリリース時期だが,この記事を執筆している時点では12月5日とされている。少し早めのクリスマスプレゼントという感じのリリースになりそうだ。楽しみにしておこう。 GIN再び PostgreSQLウォッチ第30回ではPostgreSQL 8.2の追加機能について報告した。今回は,そのとき取り上げた汎用転置インデックスGINに関する追加調査結果を報告する。 GINを使うと今まで不可能だった,データベース中のテキストのインデックスを使った高速な全文検索が可能であることは既に報告したとおりだ。しかし,その後しばらく使ってみると,いくつか問題点が見つかった。 (1) 重複した単語が登録されるので無駄 (2) 大きなテキストでは,データ登録に時間がかかるだけでなく,メモリーを消費する (1)に関してはGINに
2006-10-02 近況 sqlite を眺めていたとき私がもともと何をしていたかというと, RDB への全文検索(Fulltext Search: FTS)をつなぎ方を探していた. flino で使った HSQL は FTS に対応していない. 以前 Lucene あたりを繋げないものかとコードを覗いたけれど, 敷居は高そうだった. (Java のくせに sqlite より modular でない気がする.) よく見ると HSQL は BLOB にも対応していない. 結局ファイルと Lucene をアプリケーション側で管理している. いまいち. で, 今回はそのリベンジを目論んでいたのだった. (結局 sqlite をいじっているうちにストレス解消は完了.) 世の中を眺めてみると, RDB に FTS を繋ごうとする試みは多い. MySQL や PostgreSQL は FTS に対応
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く