
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
OpenSearchのTokenizerとフレーズ検索の挙動について - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
OpenSearchのTokenizerとフレーズ検索の挙動について - Qiita
はじめに 本記事はOpenSearchのTokenizerによるトークン分割とフレーズ検索の挙動について、直感的に分... はじめに 本記事はOpenSearchのTokenizerによるトークン分割とフレーズ検索の挙動について、直感的に分かるよう例を多く使って説明しています。 Tokenizerによるトークン分割 OpenSearchは文章を保存する際に、Tokenizerによってトークンに分割されてインデックスに保存されます。 Tokenizerは主に「形態素解析」と「N-Gram」の2種類があります。 1. 形態素解析(kuromoji) 形態素解析とは、文章やフレーズを最小の意味単位である形態素に分割することです。 下記の文章をkuromojiという形態素解析器によって単語ごとにトークン分割した場合、4つのトークンに分割されます。 日本一の企業のインターンシップに参加 日本一 企業 インターンシップ 参加 ※ kuromoji_part_of_speechというToken Filterを使って助詞を排除