tenten0213のブックマーク / 2014年5月19日

tenten0213 id:tenten0213

2014年5月19日のブックマーク (8件)

Elasticsearch Users - Unable to install plugin because of proxy
tenten0213 2014/05/19
elasticsearch

proxy
リンク
日本語Wikipediaをインデクシング（Kuromojiバージョン）
前々回紹介した、日本語Wikipediaのデータをインデックス登録する記事の続きです。今回は、Kuromojiのアナライザを利用してインデックス登録してみます。余談（Proxy環境でのプラグインインストール） ElasticSearchのpluginコマンドはJavaで実装されています。（org.elasticsearch.plugins.PluginManager）プラグインのダウンロードには、java.net.URL.openConnection()から取得URLConnectionを使用しています。ですので、pluginのインストールを行う際に、Proxy環境にある場合は以下のようにコマンドを実行します。 ./bin/plugin -DproxyPort=ポート番号 -DproxyHost=ホスト名 -i elasticsearch/elasticsearch-analysi
tenten0213 2014/05/19
elasticsearch

proxy
リンク
Elasticsearchとkuromojiでちゃんとした日本語全文検索をやるメモ | GMOメディアエンジニアブログ
技術推進室の浅井です。Elasticsearchで日本語全文検索をちゃんとやるための説明、日本語でちゃんと書かれているものが無くて少々困ったので、ちゃんと書いてみます。 Elasticsearchのインストール※ 2013/12/17 13:30 インストールするJDKのバージョンを7u45から7u25に変更 ※ 2013/12/17 12:50 JDKのバージョンについての説明を追記 @johtani さん指摘ありがとうございますこの記事内の説明でOracle JDK 7u45をインストールしていましたが、Apache Luceneが7u45を推奨していないため、7u25をインストールしたほうが良いようです。（後ほど記事内の説明も修正します修正しました） http://lucene.472066.n3.nabble.com/What-is-recommended-version-of
tenten0213 2014/05/19
elasticsearch

全文検索
リンク
全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch
全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web | 候補の選定方法候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。ウェブベースのインターフェースを持つインデックスの更新はほぼリアルタイムに反映されるスケールアウトが容易 Solr https://lucene.apache.org/solr/ Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。長所実績が十分ある機能豊富短所クラスタを構築して運用するには手間がかかりそう S
tenten0213 2014/05/19
solr

全文検索

elasticsearch
リンク
Moving to the New solr.xml Format - Solr - Apache Software Foundation
Powered by a free Atlassian Confluence Open Source Project License granted to Apache Software Foundation. Evaluate Confluence today. Powered by Atlassian Confluence 7.19.20 Printed by Atlassian Confluence 7.19.20 Report a bug Atlassian News
tenten0213 2014/05/19
solr4.4以降のsolr.xmlの書き方とcoreの設定

solr
リンク
第1回 Solr4のインストールから起動まで
1. Solr4.5を動かしてみる全文検索エンジンSolrにRDBのデータを喰わせてインデックスを作成するところまでを目標に、 Solr4のインストール〜構築を行っていきます。 Solr4を動かしてみる Solr4のコア設定 Solr4のインデックス設定（さわりだけ） Solr4にRDBのデータをくわせる Solr4でレプリケーションを構築する 1.1. まずはjavaのインストール！ RHEL系だったらyum, debian系だったらapt-getで入れてしまいましょう。 ※上記例ではopenjdkを入れてますが、sun-javaのrpmをインストールしても大丈夫です。 1.2. Solr4をダウンロードしてみる Solrのサイトダウンロード Solr4.5.1のチュートリアルダウンロードしたファイルを解凍します。解凍してできたディレクトリの中はこんな感じになっています。 Sol
tenten0213 2014/05/19
solr
リンク
検索エンジンの常識をApache Solrで身につける
表のような転置インデックス完成後は、クエリに対する結果を返す処理は簡単です。例えば、ユーザーが「Vim」というクエリを発行すると、検索エンジンは「Vim」を含む文書IDリストを返します。表では文書IDの「2」を返します。検索エンジンを取り巻く7つの技術検索エンジンのコア技術は前節で紹介したインデックスです。しかし実際に、検索インデックスだけで構成する検索エンジンから、検索サービスを構築するには多大なコストが掛かります。以下の節で検索エンジンを利用したシステム、検索サービスを構築する際に便利なコンポーネントを紹介します。これらの機能のいくつかは、多くの検索エンジンが組み込んでいます。一方で、簡素な検索エンジンは、以下で紹介するコンポーネントをサポートしていないため、ユーザーが独自に開発するか、その機能を持つコンポーネントを組み込む必要があるものもあります。【1】トークナイザ検索エン
tenten0213 2014/05/19
solr
リンク
gitの歴史上からpasswordを完全に削除したい - (ﾟ∀ﾟ)o彡 sasata299's blog
2014年05月19日10:17 Git gitの歴史上からpasswordを完全に削除したい git で管理しているプロジェクトで「あっ、しまったパスワードが紛れ込んでしまった…！」みたいなことがあって「どうしたらいいんやー＞＜」と思っていたんですが、git filter-branch という最強のコマンドを使えばなんとかなるんですね。今回は PASSWORD という文字列を含む行を git の歴史上から完全に削除するというのをやってみました。sed -e '/xxx/d' が xxx という文字列を含む行を削除 (delete) するコマンドです。 git filter-branch --tree-filter "find . -type f -exec sed -i '' -e '/PASSWORD/d' {} \;" そうすると PASSWORD という文字列を含む行の痕跡が奇麗
tenten0213 2014/05/19
Git
リンク
- 2014年5月20日
- 2014年5月19日
- 2014年5月16日