[B! Analyzer] tatsu_toraのブックマーク

tatsu_tora id:tatsu_tora

Analyzerに関するtatsu_toraのブックマーク (2)

Elasticsearch 日本語で全文検索その２
Elasticsearch では、すでに日本語で全文検索する為のトークナイザーやノーマライズなどの加工処理で使用するフィルターなどがビルトインまたは、サードパーティ製のプラグインとして多数存在します。ここでは、日本語全文検索で使用しそうなトークナイザーやフィルターなどを説明します。主要モジュールNGram Tokenizer N-グラムを提供するトークナイザーです。Elasticsearch にバンドルされています。Japanese (kuromoji) Analysis for Elasticsearch 日本語形態素解析を提供するプラグインです。各種 Analyzer、Tokenizer、TokenFilterが含まれます。cjk_width Token Filter 半角・全角などを統一するためのフィルターです。Elasticsearch にバンドルされています。Lowercas
tatsu_tora 2017/09/21
elasticsearch

Analyzer
リンク
Elasticsearch 日本語の為のスキーマレス環境構築
Elasticsearch の特徴の一つスキーマレス（事前のスキーマ定義なしにデータをインデックスできる機能）ですが、日本語ではなかなかこの恩恵を受けることが出来ません。アナライザーを日本語向けにカスタマイズしたり、一つのフィールドでも日本語、ファセット、などコンテンツの内容と、いろいろな用途で使用することを考慮して、マッピング定義を設計する必要があるからです。せっかくスキーマレスな検索エンジンなのに毎回マッピング定義をいちいちするのもめんどいと思うのは私だけでしょうか？と言うことで、動的マッピングを使って日本語でもスキーマレス環境の構築を考えたいと思います。目指すは、検索の高度な知識を習得しなくても簡単に使える環境！使用する主な機能日本語環境でもスキーマレスな環境を手に入れる為に以下の機能を使用しました。インデックステンプレート（Index Templates）インデックステン
tatsu_tora 2017/06/06
Elasticsearch

Analyzer
リンク
1