SolrとElasticsearchに関して独自の観点で比較してまとめています。 (実際に比較検討が必要な場合は、ご自身で実施されるのが良いと思います)

このようにすることで、 そもそも mecab-ipadic-NEologd に意味はあるの? mecab-ipadic-NEologd で分かち書きして悪影響は無いの? mecab-ipadic-NEologd を週2回も更新することに意味はあるの? などの典型的な疑問について考察する材料を得たいと考えました。 学習器と特徴ベクトルの作り方 学習器は LIBLINEAR を使用しました。LIBLINEAR で学習するときのパラメーターですが、今回は辞書やデータごとに最適なパラメーターを探すことが今回の目的ではありません。そこで、別の期間のデータと MeCab 用の辞書を用意して、事前に実験と相対的に同様なデータと辞書の関係を作って探索することにしました。その結果、「s=5, c=0.8, B=-1」という設定が比較対象の UniDic にとって総合的に有利だったのでそれを採用しました。 各
こんにちは。木内です。elasticsearchは分散アーキテクチャで可用性を確保するデータベースです。今回はelasticsearchクラスタでノード障害が起きたときに、どのような挙動を取るかについて解説します。 elasticsearchのプライマリシャードとレプリカシャード elasticsearchのデータを考える際に、キーとなる要素は「プライマリシャード」と「レプリカシャード」です。それぞれ以下のような役割を果たします。 プライマリシャード : ドキュメント(つまりインデックスに保存されるデータのうちの1つ)がelasticsearchに記録されるときに、あらかじめ定義された関数に従い、できるだけ分散されるようにプライマリシャードに配置されます。(elasticsearchクラスタの中に、インデックスごとに作成される)プライマリシャード数のデフォルト値は 5 です。 レプリカシャ
割と遊びのつもりで書き始めたら意外と注目が集まってしまって遊びじゃない感じになってきましたが、前回の続きでelasticsearchの運用情報を書いていきます。 @johtani さんにTwitterでElasticSearchのアップグレード情報などを色々と教えていただいたので、また後日検証してまとめてみようと思います。ありがとうございました。 今回は設定周りの情報になります。 そういえば後から見直すことを考えるとどの投稿にどういう情報が乗っているか探すのが大変になりそうだから、索引を作る必要がある気がする。そのうち考えるかも。 JVMのバージョンについて java7を使う場合、特定のバージョンでindexが壊れる問題がLuceneで発生するので避ける必要がある。 Apache Lucene - Welcome to Apache Lucene 具体的にはjava7u25以下またはjav
最近のマイブームの1つになっている、全文検索エンジン ElasticSearch に MySQL のデータを取り込んで、MySQL データベースの全文検索エンジンとして ElasticSearch を使う手順の紹介です。 まず検索エンジンである ElasticSearch を導入します。日本語形態素解析エンジンである Kuromoji まで含めてのインストール手順を別エントリで紹介しているので、こちらを参照ください: ElasticSearch に Kuromoji プラグインを導入する また取り込み先である MySQL サーバーについても環境は構築済みであると仮定します。こちらの構築手順についても、こちらのエントリを参照ください: CentOS に MySQL をインストール/セットアップする なお、自分個人的には MySQL ではなく MariaDB を使って同じことをできているので、
前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS
そろそろ、Elasticsearchを少しずつ触っていってみようかと思いまして。 とはいえ、自分はあんまり検索エンジンはやったことがないので、まあ気ままにマイペースで試していけたらなぁと思っています。 一応、LuceneおよびHibernate Searchは趣味的に遊んだことがあります。Apache Solrは、この前初めて使いました。あと、この本は持っています。 高速スケーラブル検索エンジン ElasticSearch Server 作者: Rafal Kuc・Marek Rogozin’ski,株式会社リクルートテクノロジーズ,大岩達也、大谷純、兼山元太、水戸祐介、守谷純之介出版社/メーカー: KADOKAWA/アスキー・メディアワークス発売日: 2014/03/21メディア: 大型本この商品を含むブログ (4件) を見る が、1.5くらいの時にzipを展開して起動したことがあるくら
今日は、ElasticSearchのMLで見つけたelasticsearch-inquisitorプラグインの紹介です。 ElasticSearchはREST API形式で簡単にコマンドラインからいろいろな処理を実行できて便利ですが、 GUIがあったほうが楽なこともまた事実です。 今回紹介する、inquisitorプラグインもSiteプラグイン(Webブラウザでアクセスできるプラグイン)の1つです。 (ただし、ローカルにインストールしてローカルのElasticSearchにしか接続できませんが。。。) インストール プラグインですので、以下のコマンドでインストールが出来ます。インストール後はElasticSearchの再起動が必要です。 bin/plugin -install polyfractal/elasticsearch-inquisitor ElasticSearch再起動後に、以
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しましたという記事が話題になっていたのでmecab-ipadic-neologdを試してみました。 インストール READMEを見れば分かりますが一応メモ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./bin/install-mecab-ipadic-neologdでインストールできます。 インストール先は echo `mecab-config --dicdir`"/mecab-ipadic-neolo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く