Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
ジャポルノレディーズであいまい検索が最も役だったのが名寄せでした。 ジャポルノレディーズでは基本的に動画は全て他のエロサイトへのリンクで提供しているので明日花キララさんの動画を探す上で他のエロサイトから明日花キララさんの動画を探す作業が必須です。 しかし問題は ・エロサイト毎に明日花キララさんのアルファベット表記がバラバラ という事でした。 エロサイトAではasuka_kirara エロサイトBではasuka_kilala エロサイトCではashitaka_kirara ・ ・ ・ という感じ。うちではasuka_kiraraでデータを持っているので、当然asuka_kilalaと名前のついている動画もasuka_kiraraの動画としてデータを保存したい!という訳です。 そこであいまい検索が役立ちます。 まずは普通のmatchクエリでasuka_kilalaを検索します。 # codin
Elasticsearchでの形態素解析はKuromoji一択だけど、やや辞書が貧弱な部分もある。 例えば東京に「西国分寺駅」という駅があるけど、「西国分寺」で形態素解析すると「西」「国分寺」で分かれる。 読みも「サイコクブンジ」となってしまう。(正しくは「ニシコクブンジ」) なので、ある程度ユーザー辞書で補いたいと思う。 参考になったサイト elasticsearch-analysis-kuromojiでユーザ辞書の利用方法 Elasticsearch 日本語で全文検索 その2 環境 CentOS 6.4 Elasticsearch 1.1.1 kuromoji 2.0.0 辞書ファイルの作成 まず辞書ファイルを作成。 普通のテキストファイルで、文字コードは UTF-8。拡張子は自由。 ここでは例として「my_jisho.dic」とした。 辞書ファイルの置き場所 ファイルの保存先は /e
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く