タグ

全文検索に関するinoueyuworksのブックマーク (2)

  • Bing検索の裏側―BitFunnelのアルゴリズム - Hatena Developer Blog

    はてなアプリケーションエンジニアの id:takuya-a です。 この記事では、Microsoft の検索エンジン Bing で採用された BitFunnel アルゴリズムを紹介します。 昨年のエンジニアアドベントカレンダーでは、文字列検索のアルゴリズム全般について紹介しました(文字列アルゴリズムの学びかた - Hatena Developer Blog)。今年はそのなかでも、インデックス(索引)を使った全文検索アルゴリズムについてのお話になります。 この記事の前半は全文検索の入門にもなっていますので、検索技術になじみがない方にも楽しんでいただけるのではないでしょうか。 逆に、「そんなのもう知ってるよ!」という方は、題である「BitFunnel アルゴリズムの詳細」から目を通していただければと思います。 この記事は、はてなエンジニア Advent Calendar 2017の21日目の

    Bing検索の裏側―BitFunnelのアルゴリズム - Hatena Developer Blog
  • 9.html

    株式会社クリアコード > ククログ > PostgreSQL標準添付のpg_trgmでリビルドせずにインデックスを使った日語全文検索をする方法:LC_CTYPEにC.UTF-8を指定 PostgreSQLのソースアーカイブにはcontribというデフォルトではビルドされないモジュールが含まれています。このモジュールの中にはpg_trgmというモジュールがあります。pg_trgmを使うとインデックスを使って高速に全文検索できます。ただし、pg_trgmはデフォルトでは日語に対応しておらず、ソースコードを変更してビルドし直さないといけません。いけないと言われています。 GitLabは8.6からpg_trgmを使って全文検索を高速化しました。ということは、GitLabでは日語で全文検索するとインデックスを使えないということになります。しかし、実際に試してみると日語で全文検索してもインデッ

    9.html
    inoueyuworks
    inoueyuworks 2020/05/03
    pg_trgm (trigram) モジュールを利用するにあたって、 LC_CTYPE を C.UTF-8 に設定すると、うまく日本語でも trigram になったりする。しかし、それはデータベースの初期設定の時からその設定を行う必要あり
  • 1