タグ

Analyzerに関するtatsu_toraのブックマーク (2)

  • Elasticsearch 日本語で全文検索 その2

    Elasticsearch では、すでに日語で全文検索する為のトークナイザーやノーマライズなどの加工処理で使用するフィルターなどがビルトインまたは、サードパーティ製のプラグインとして多数存在します。 ここでは、日語全文検索で使用しそうなトークナイザーやフィルターなどを説明します。 主要モジュールNGram Tokenizer N-グラムを提供するトークナイザーです。Elasticsearch にバンドルされています。Japanese (kuromoji) Analysis for Elasticsearch 日形態素解析を提供するプラグインです。各種 Analyzer、Tokenizer、TokenFilterが含まれます。cjk_width Token Filter 半角・全角などを統一するためのフィルターです。Elasticsearch にバンドルされています。Lowercas

    Elasticsearch 日本語で全文検索 その2
  • Elasticsearch 日本語の為のスキーマレス環境構築

    Elasticsearch の特徴の一つスキーマレス(事前のスキーマ定義なしにデータをインデックスできる機能)ですが、日語ではなかなかこの恩恵を受けることが出来ません。アナライザーを日語向けにカスタマイズしたり、一つのフィールドでも日語、ファセット、などコンテンツの内容と、いろいろな用途で使用することを考慮して、マッピング定義を設計する必要があるからです。 せっかくスキーマレスな検索エンジンなのに毎回マッピング定義をいちいちするのもめんどいと思うのは私だけでしょうか?と言うことで、動的マッピングを使って日語でもスキーマレス環境の構築を考えたいと思います。 目指すは、検索の高度な知識を習得しなくても簡単に使える環境! 使用する主な機能日語環境でもスキーマレスな環境を手に入れる為に以下の機能を使用しました。 インデックステンプレート(Index Templates) インデックステン

    Elasticsearch 日本語の為のスキーマレス環境構築
  • 1