[B! elasticsearch] utgwkkのブックマーク

utgwkk id:utgwkk

elasticsearchに関するutgwkkのブックマーク (2)

Elasticsearch: N-gram tokenizer と N-gram token filter の挙動の違い - Unyablog.
この記事は KMC advent calendar 8日目の記事ということにしています。 adventar.org KMC では部内ドキュメント検索システムで Elasticsearch を使用している。最近 Elasticsearch のバージョンを上げる準備をしていて、設定の見直しの中で N-gram token filter を使ってみたら想定と違った挙動をしたのでメモ。 Disclaimer 7.16 で確認検索結果に False positive, False negative がないかの視点で見ている。スコアリング関係は見ていない。 Edge n-gram 、CJK bi-gram については見ていないエラサーのプロではないので間違っていたら教えて下さい… TL;DR N-gram tokenizer はイメージ通り、与えられた文字列を N-gram で各 Token に分
utgwkk 2021/12/26
elasticsearch
リンク
How to implement Japanese full-text search in Elasticsearch
全文検索は一般的に知られていますが、検索エクスペリエンスで非常に重要な役割を果たしています。ただし、日本語など、一部の言語では、全文検索を実装するのが難しい場合があります。このブログでは、日本語で全文検索を実装する際の課題を探り、Elasticsearchでこれらの課題を解決する方法をいくつか示します。全文検索とは？ Wikipediaより、下記が定義となります。全文検索とは、コンピュータにおいて、複数の文書（ファイル）から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。全文検索は、現在多くのデジタル体験を強化するものです。全文検索は、データセット内に隠れている可能性のある単語やフレーズを見つけようとしてくれます。例えば、ネットショッピングして「phone」を検
utgwkk 2021/02/28
elasticsearch
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx