[B! NLP][elasticsearch] koda3のブックマーク

koda3 id:koda3

NLPとelasticsearchに関するkoda3のブックマーク (2)

WikipediaのデータからElasticsearch用類義語辞書をつくる - Qiita
Elasticsearchには類義語によるクエリ拡張機能があります。これを適用するとまどマギと検索したときにまどかマギカと書かれた文書もヒットするようになります。 (LuceneやSolrにもありますがここではElasticsearchの話だけします) この類義語辞書は、人手で作ること (e.g., FRILの商品検索をnGramから形態素解析にした話 - mosowave) もできますが、今回はなるべく手間をかけたくないのでWikipediaのリダイレクトデータから自動で類義語辞書を作る方法を紹介します。 (自動といってもノイズも含まれてるので実用的に使うにはある程度人手でフィルタリングする必要があります。それでも一から人手で作るよりは手間が少ないと思います) (ElasticsearchではWordNetでの類義語検索に対応しているようですが、これを書いてる2015年12月時点
koda3 2015/12/30
あとで読む

elasticsearch

類義語

WordNet

Wikipedia

形態素解析

全文検索

NLP
リンク
Elasticsearch 日本語形態素解析のための文字列正規化の重要性
日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう！この記事は、Elasticsearch Advent Calendar 2014 の１８日目のエントリーです。即席で申し訳ないですが、なんとかまとめましたので是非最後までお付き合いください。今回は、日本語形態素解析における文字列正規化のお話です。それでは早速本題に。非正規化された日本語の文章を形態素解析を使って、なるべく意図したようにトークナイズするためには、全角英数字を半角英数字に正規化したり、半角カタカナを全角カタカナに正規化したり、不要な文字を除外したり、単語ではなく、文字単位での正規化が重要になってきます。 Japanese (kuromoji) Analysis Plugin のページでも紹介されているように、全角英数字や半角カタカナの正規化には、CJK Width F
koda3 2015/03/16
NLP

elasticsearch
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx