タグ

全文検索に関するhide_o_55のブックマーク (3)

  • はてなブックマーク全文検索の精度改善

    Hatena Engineer Seminar #5 での発表スライド

    はてなブックマーク全文検索の精度改善
  • pg_bigm

    pg_bigm(ピージーバイグラム) pg_bigmは、PostgreSQL上で全文検索機能を提供するモジュールです。このモジュールを使うことで、ユーザは全文検索用のインデックスを作成でき、高速に文字列検索を行えるようになります。このモジュールは、2-gram(バイグラム)と呼ばれる方法で、文字列から全文検索用のインデックスを作成します。 ニュース 2022-10-24: PostgreSQL15用のpg_bigm-1.2-20200228のRPMファイルをリリースしました。RPMファイルはこちらからダウンロードできます。 2022-10-13: pg_bigmバージョン 1.2 が PostgreSQL 15 に対応していることを確認しました。 2021-10-07: PostgreSQL14用のpg_bigm-1.2-20200228のRPMファイルをリリースしました。RPMファイルは

  • Herokuの全文検索事情

    こんにちは。 Herokuで全文検索(当然日語)を行う場合にどういう選択肢があるのか調査したのでそのレポートを書いてみます。 ★評価のポイント Herokuには複数の全文検索Addonがあり、またPostgreSQLにも全文検索の機能があるのですが今回評価のポイントとしたのは以下の2点です。 ・日語に対応しているか? 全文検索は英語などのヨーロッパ圏の言語と、日語などのアジア圏の言語(CJK)では実装の難易度が大きくが異なります。 英語なんかは単語がスペースや改行などのホワイトスペースで区切られているので、単語の分割で悩む必要がないんですね。一方の日語の文章は基的に切れ目なく連続して記述されるのでどうにかして単語を分割しなければなりません。 この単語分割の方法には「形態素解析」と「N-gram」という2つの有力なロジックがあってそれぞれに特徴があるのですが、とりあえずそこはまぁど

  • 1