Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

ジャポルノレディーズであいまい検索が最も役だったのが名寄せでした。 ジャポルノレディーズでは基本的に動画は全て他のエロサイトへのリンクで提供しているので明日花キララさんの動画を探す上で他のエロサイトから明日花キララさんの動画を探す作業が必須です。 しかし問題は ・エロサイト毎に明日花キララさんのアルファベット表記がバラバラ という事でした。 エロサイトAではasuka_kirara エロサイトBではasuka_kilala エロサイトCではashitaka_kirara ・ ・ ・ という感じ。うちではasuka_kiraraでデータを持っているので、当然asuka_kilalaと名前のついている動画もasuka_kiraraの動画としてデータを保存したい!という訳です。 そこであいまい検索が役立ちます。 まずは普通のmatchクエリでasuka_kilalaを検索します。 # codin
はじめに 4/21(月)に開催された第4回elasticsearch勉強会に参加してきました。場所はグラントウキョウサウスタワー。会場提供はリクルートテクノロジーズ様でした。一参加者としてお礼申し上げます、ありがとうございます! なお、参加者にはElasticsearchのステッカーがもらえました(足りなかった人にはLogstashのステッカーだったとか。でもあのロゴも好きです僕) tweetまとめはこちら。 第4回elasticsearch勉強会 #elasticsearchjp - Togetterまとめ レポート ※後日各発表のスライドが公開されましたら順次追加致します。 「アナライズ処理の仕組みとクエリDSL」 by 株式会社シーマーク 大谷純さん(@johtani) スライド(PDF) ・転置インデックスとは ・文章を要素に区切り、その素からドキュメントIDを引けるようにすること
ElasticSearchにwikipediaのデータを投入する手順.md pluginコマンドのパス /usr/share/elasticsearch/bin/以下(※Ver1.3.2で確認) Elasticsearch-river-plugin HP https://github.com/elasticsearch/elasticsearch-river-wikipedia ※ElasticSearchのバージョンによってインストールするバージョンが異なるため注意 インストール bin/plugin -install elasticsearch/elasticsearch-river-wikipedia/2.0.0 Kuromoji HP https://github.com/elasticsearch/elasticsearch-analysis-kuromoji インストール bi
TL;DR 漢字で保持しているユーザの名前をひらがな、カタカナでも検索できるようにします。 使ってみる 以下のURLにアクセスして、上部のサーチボックスから検索が行えます。 ログインするとよりたくさんの結果が返ります。お試しください。 環境 Elasticsearch v1.2.1 kuromoji for Elasticsearch v2.2.0 方針 kuromoji_tokenizerで形態素解析した単語の漢字部分を kuromoji_readingform(TokenFilter)でカタカナに変換してインデックスします。 変換のために別途人名辞書を作成しkuromoji_tokenizerのユーザ辞書に登録して漢字とカタカナの紐付けを行います。 ユーザ辞書はトークンと読みがなを1対1でしか紐づけできないので、word_delimiter(TokenFilter)を活用して1対Nで紐
はじめに 初めまして、ブロガーとして出張してきました@smokeymonkeyです。 今回、AWS上にElasticSearchを導入し、試行錯誤した結果をまとめてみました。シリーズものとして何度か続けていきたいと思いますので、どうぞ宜しくお願い致します。 ElasticSearchとは Apache v2ライセンスで公開されているオープンソースソフトウェアであり、全文検索エンジンであるLuceneを使用した、全文検索システムです。特徴として RESTfulなAPIが使える InputもOutputもJSON スキーマフリーなので面倒な定義無しにデータを登録可能 等があります。 Kuromojiとは Kuromojiはatilika社製のJavaで書かれた日本語形態素解析ソフトウェアで、Apache v2ライセンスで公開されているオープンソースソフトウェアです。形態素解析としてはChaSe
技術推進室の浅井です。Elasticsearchで日本語全文検索をちゃんとやるための説明、日本語でちゃんと書かれているものが無くて少々困ったので、ちゃんと書いてみます。 Elasticsearchのインストール※ 2013/12/17 13:30 インストールするJDKのバージョンを7u45から7u25に変更 ※ 2013/12/17 12:50 JDKのバージョンについての説明を追記 @johtani さん指摘ありがとうございます この記事内の説明でOracle JDK 7u45をインストールしていましたが、Apache Luceneが7u45を推奨していないため、7u25をインストールしたほうが良いようです。(後ほど記事内の説明も修正します 修正しました) http://lucene.472066.n3.nabble.com/What-is-recommended-version-of
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く