前々回紹介した、日本語Wikipediaのデータをインデックス登録する記事の続きです。 今回は、Kuromojiのアナライザを利用してインデックス登録してみます。 余談(Proxy環境でのプラグインインストール) ElasticSearchのpluginコマンドはJavaで実装されています。(org.elasticsearch.plugins.PluginManager) プラグインのダウンロードには、java.net.URL.openConnection()から取得URLConnectionを使用しています。 ですので、pluginのインストールを行う際に、Proxy環境にある場合は以下のようにコマンドを実行します。 ./bin/plugin -DproxyPort=ポート番号 -DproxyHost=ホスト名 -i elasticsearch/elasticsearch-analysi
技術推進室の浅井です。Elasticsearchで日本語全文検索をちゃんとやるための説明、日本語でちゃんと書かれているものが無くて少々困ったので、ちゃんと書いてみます。 Elasticsearchのインストール※ 2013/12/17 13:30 インストールするJDKのバージョンを7u45から7u25に変更 ※ 2013/12/17 12:50 JDKのバージョンについての説明を追記 @johtani さん指摘ありがとうございます この記事内の説明でOracle JDK 7u45をインストールしていましたが、Apache Luceneが7u45を推奨していないため、7u25をインストールしたほうが良いようです。(後ほど記事内の説明も修正します 修正しました) http://lucene.472066.n3.nabble.com/What-is-recommended-version-of
全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web | 候補の選定方法 候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。 ウェブベースのインターフェースを持つ インデックスの更新はほぼリアルタイムに反映される スケールアウトが容易 Solr https://lucene.apache.org/solr/ Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。 長所 実績が十分ある 機能豊富 短所 クラスタを構築して運用するには手間がかかりそう S
Powered by a free Atlassian Confluence Open Source Project License granted to Apache Software Foundation. Evaluate Confluence today. Powered by Atlassian Confluence 7.19.20 Printed by Atlassian Confluence 7.19.20 Report a bug Atlassian News
1. Solr4.5を動かしてみる 全文検索エンジンSolrにRDBのデータを喰わせてインデックスを作成するところまでを目標に、 Solr4のインストール〜構築を行っていきます。 Solr4を動かしてみる Solr4のコア設定 Solr4のインデックス設定(さわりだけ) Solr4にRDBのデータをくわせる Solr4でレプリケーションを構築する 1.1. まずはjavaのインストール! RHEL系だったらyum, debian系だったらapt-getで入れてしまいましょう。 ※上記例ではopenjdkを入れてますが、sun-javaのrpmをインストールしても大丈夫です。 1.2. Solr4をダウンロードしてみる Solrのサイト ダウンロード Solr4.5.1のチュートリアル ダウンロードしたファイルを解凍します。 解凍してできたディレクトリの中はこんな感じになっています。 Sol
表のような転置インデックス完成後は、クエリに対する結果を返す処理は簡単です。例えば、ユーザーが「Vim」というクエリを発行すると、検索エンジンは「Vim」を含む文書IDリストを返します。表では文書IDの「2」を返します。 検索エンジンを取り巻く7つの技術 検索エンジンのコア技術は前節で紹介したインデックスです。しかし実際に、検索インデックスだけで構成する検索エンジンから、検索サービスを構築するには多大なコストが掛かります。以下の節で検索エンジンを利用したシステム、検索サービスを構築する際に便利なコンポーネントを紹介します。 これらの機能のいくつかは、多くの検索エンジンが組み込んでいます。一方で、簡素な検索エンジンは、以下で紹介するコンポーネントをサポートしていないため、ユーザーが独自に開発するか、その機能を持つコンポーネントを組み込む必要があるものもあります。 【1】トークナイザ 検索エン
2014年05月19日10:17 Git gitの歴史上からpasswordを完全に削除したい git で管理しているプロジェクトで「あっ、しまったパスワードが紛れ込んでしまった…!」みたいなことがあって「どうしたらいいんやー><」と思っていたんですが、git filter-branch という最強のコマンドを使えばなんとかなるんですね。 今回は PASSWORD という文字列を含む行を git の歴史上から完全に削除するというのをやってみました。sed -e '/xxx/d' が xxx という文字列を含む行を削除 (delete) するコマンドです。 git filter-branch --tree-filter "find . -type f -exec sed -i '' -e '/PASSWORD/d' {} \;" そうすると PASSWORD という文字列を含む行の痕跡が奇麗
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く