[B! Elasticsearch][japanese] clavierのブックマーク

clavier id:clavier

Elasticsearchとjapaneseに関するclavierのブックマーク (2)

Elasticsearch 日本語形態素解析のための文字列正規化の重要性
日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう！この記事は、Elasticsearch Advent Calendar 2014 の１８日目のエントリーです。即席で申し訳ないですが、なんとかまとめましたので是非最後までお付き合いください。今回は、日本語形態素解析における文字列正規化のお話です。それでは早速本題に。非正規化された日本語の文章を形態素解析を使って、なるべく意図したようにトークナイズするためには、全角英数字を半角英数字に正規化したり、半角カタカナを全角カタカナに正規化したり、不要な文字を除外したり、単語ではなく、文字単位での正規化が重要になってきます。 Japanese (kuromoji) Analysis Plugin のページでも紹介されているように、全角英数字や半角カタカナの正規化には、CJK Width F
clavier 2015/03/17
elasticsearch

japanese
リンク
Elasticsearchとkuromojiでちゃんとした日本語全文検索をやるメモ | GMOメディアエンジニアブログ
技術推進室の浅井です。Elasticsearchで日本語全文検索をちゃんとやるための説明、日本語でちゃんと書かれているものが無くて少々困ったので、ちゃんと書いてみます。 Elasticsearchのインストール※ 2013/12/17 13:30 インストールするJDKのバージョンを7u45から7u25に変更 ※ 2013/12/17 12:50 JDKのバージョンについての説明を追記 @johtani さん指摘ありがとうございますこの記事内の説明でOracle JDK 7u45をインストールしていましたが、Apache Luceneが7u45を推奨していないため、7u25をインストールしたほうが良いようです。（後ほど記事内の説明も修正します修正しました） http://lucene.472066.n3.nabble.com/What-is-recommended-version-of
clavier 2013/12/17
japanese

elasticsearch

java

kuromoji
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx