Elasticsearch 日本語形態素解析のための文字列正規化の重要性

テクノロジーカテゴリーの変更を依頼記事元:

medium.com

77users がブックマークコメント

記事へのコメント3件

注目コメント
新着コメント

takezoe ICU Analysis Plugin

elasticsearch

2015/03/17 リンク

wlbhiro

2015/03/02

kasumani Elasticsearch 日本語形態素解析のための文字列正規化の重要性 — Hello! Elasticsearch. — Medium 日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう！ Tags: feedly, ifttt, rece

2014/12/18 リンク

kunihikokido Elasticsearch Advent Calendar 2014, 18日目エントリー投稿しました。「日本語形態素解析のための文字列正規化の重要性」

2014/12/18 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

Elasticsearch 日本語形態素解析のための文字列正規化の重要性

日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上さ... 日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう！この記事は、Elasticsearch Advent Calendar 2014 の１８日目のエントリーです。即席で申し訳ないですが、なんとかまとめましたので是非最後までお付き合いください。今回は、日本語形態素解析における文字列正規化のお話です。それでは早速本題に。非正規化された日本語の文章を形態素解析を使って、なるべく意図したようにトークナイズするためには、全角英数字を半角英数字に正規化したり、半角カタカナを全角カタカナに正規化したり、不要な文字を除外したり、単語ではなく、文字単位での正規化が重要になってきます。 Japanese (kuromoji) Analysis Plugin のページでも紹介されているように、全角英数字や半角カタカナの正規化には、CJK Width F