AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design PatternAmazon Web Services Japan
![第15回 Solr勉強会 #SolrJP Amazon CloudSearch Deep Dive](https://cdn-ak-scissors.b.st-hatena.com/image/square/1f85ee99176df475a33f537fdb353f987dd81fb6/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F15solramazoncloudsearchdeepdivepublic-141209003449-conversion-gate01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
初めまして、インフラストラクチャー部の加藤 (@EugeneK) です。 クックパッドでは現在178万ものレシピが公開されていますが、目的のレシピを探すために検索機能を提供しています。 今回は検索機能の裏側の仕組みについて、インフラストラクチャーの観点からお話ししようと思います。 全ての検索機能を支えるSolrと周辺のアーキテクチャ クックパッドにはレシピの検索だけでなく様々な検索機能がありますが、その全てはSolrを活用して実装されています。 以前はMySQL Tritonnによる全文検索機能を使用していましたが、2011年頃からSolrに切り替わりました。 クックパッドではSolrをマスタ - スレーブ構成にすることで冗長性と負荷分散を実現しています。以下の構成図をご覧ください。 マスタとスレーブの間には、リピータと呼ばれる検索インデックスを中継するためだけの役割のサーバがいます。この
以前に勤めてた会社のエンジニアブログで公開してたシロモノなんですが、都合によりそちらのブログが消えちゃったのでこちらで公開します。もう一年半以上前に書いたものなのでだいぶ古いですが。(もう Solr もバージョン4が出てますし…) 全文検索システム Solr のバージョン 3.2 を使って Solr の Spatial Search 機能に触れてみました、という内容です。Solr Wiki の Spatial Search をなぞってみたのですが、こちらで使われているサンプルデータに含まれるのはもちろん海外の位置情報です。島国に生まれた人間として、どうもイメージしづらかったので大雑把な日本のランドマーク位置情報データを作り、これに対して Spatial Search してみました。 環境 今回の作業は以下の環境で行いましたが、たぶんこの環境でなくともだいたいは実施可能と思います。 Cent
Apache Solr 4.0 がリリースされた。 本記事では Solr 4.0 の新機能や改善された点のうち気になるものを紹介する。 概要 Solr 4.0 では、下記の変更が入る。 83 個の新機能 13 個の最適化 121 個のバグ改修 Solr 4.0 はメジャーバージョンアップにふさわしい、非常に強力なリリースとなる。 SolrCloud Solr 4.0 の数ある新機能のうちの目玉機能。 SolrCloud という名前から推測できるように、Solr の分散構成が行えるようになった。とはいうものの、Solr 3.6 以前でもレプリケーションは行えたのだが、Solr 4.0 は一味ちがう。 今までより断然賢くなった。シャーディングもクラスタリングも簡単な設定で行うことができる。インデクス書き込みも複数ノードから行える。そしてなにより自動フェイルオーバーができるようになった。 さらに
CJKAnalizerでは「花」の1文字の検索を行うと、検索出来ない不具合が見つかった。 その他に検索できない日本語が色々出てきたので、CJKAnalizerには身を引いてもらいます。 んで、色々試したのですがどれも一長一短すぎ、使い物にならないので、 N-Gramを使用することにしました。 N-Gram を 1-gram で使用した場合、語句に関係無く文字が一致するとヒットしてしまうので、検索ワードが2文字以上の場合は 2-gram を使用する方針としました。 データ上に検索キーワードが存在するのに CJKAnalizer ではヒットしない場合があるなんて、信じられない!。 solrを使用している事例は日本語のページでも見ますが、こういう事が明らかにされていないのは非常に不親切ではないでしょか?? 実際solrの問い合わせパラメータを日本語で説明しているサイトも無いし、オープンソースなん
{{{#!wiki red/solid The most up to date information about spatial search at the Solr Reference Guide instead: https://cwiki.apache.org/confluence/display/solr/Spatial+Search. Some details, examples, and other info is still here, however. }}} Solr3.1 Spatial Search Introduction Many applications wish to combine location data with text data. This is often called spatial search or geo-spatial search.
Lucene/Solr 3.1 から新たに実装されたSpatial Search について試してみました。 今回、位置情報データに使用したのは 国土数値情報ダウンロードサービス の公共施設データです。 1.データ準備 国土数値情報ダウンロードサービスから公共施設データ47都道府県分のXMLファイルをダウンロード XMLデータをパースしてMySQLに格納 → 直接Solrに格納することも当然できるが、今回はMySQLに一旦格納した 理由としては以下の2点。 公共施設データ本体と緯度経度データがXML中の別のところにあり、XPathで検索もできるが速度的にはMySQLのほうが速そうだった 施設の大分類、小分類、市区町村がコード化されているので、MySQLにマスターデータを持ってJOINしたほうがよさそう ※このプログラムはあまりに汚いので公開しません。。。 概要としては、ざっと以下のような感じ
CentOS5.7で全文検索エンジンApache Solr3.4.0のインストールからMySQLデータのインポートまで Apache Solr入門 ―オープンソース全文検索エンジン 作者: 関口宏司,三部靖夫,武田光平,中野猛,大谷純出版社/メーカー: 技術評論社発売日: 2010/02/20メディア: 大型本購入: 18人 クリック: 567回この商品を含むブログ (22件) を見る の記事の続きです。 マルチコア化作業を進めた時に嵌ったことをメモしました。 Solrのマルチコア機能 通常1つのSolrをサーブレットコンテナにデプロイすると、1つのインデックスとそれに対応するインタフェースが提供されます。 マルチコアを利用すると、1つのsolr上に複数のインデックスとそれに対応するインタフェースを利用することができます。 インストールされたSolrのexampleには、multicore
CentOS5.7にZABBIX1.8.7をインストール 上記の記事で導入したZABBIXでApache Solrのステータス値を取得する手順を紹介します。 本当はApache Soler3.xの値を取得したかったのですが、どうもうまくいかずバージョン1.4での利用になります。 どなたかSolr3.xでの設定方法わかる方いたら教えて頂きたいです。 Solrの情報を得るためにはブリッジアプリケーションであるzapcatを導入します。 http://www.kjkoster.org/zapcat/ wget http://sourceforge.net/projects/zapcat/files/zapcat/zapcat-1.2/zapcat-1.2.zip/downloadここでダウンロードしてきたzapcat-1.2.zipの中にある、zapcat-1.2.warをsolrに配置します。
Apache Solr http://lucene.apache.org/solr/ Apache Solr(ソーラー)はApacheコミュニティによってオープンソースで開発されている全文検索エンジンです。 Apache LuceneのHTTPラッパーのようなものです。 Luceneでは全文検索を行う為にはそれなりにコードを書かなければいけないですが、Solrを使うとSolrに対してHTTPのリクエストを行うだけで指定したデータをHTTPレスポンスで返してきてくれます。 利用するにはTomcatなどのサーブレットコンテナを利用する必要があります。 MySQLのデータベースにあるデータをSolrにインポートしてデータを検索するといったことも可能です。 現時点(2011/09/16)で最新のSolrは3.4.0です。1.4.xの時は同梱されていたJettyのバージョンは6.13でしたが、Sol
これからはSolrを使って全文検索サービスの時代だということで、Solrをダウンロードしてきてサンプルアプリケーションで日本語が扱えるようにしました。 調べつつやっているのでもしかしたら間違っていることを言ってるかもしれません。 Apache Solr 3.3.0のダウンロード〜解凍 http://lucene.apache.org/solr/ の左側のメニューから【Resources】->【Download】と辿り、最新版(3.3.0)をダウンロードします。 今回は apache-solr-3.3.0.tgz をダウンロードしました。 $ wget http://ftp.kddilabs.jp/infosystems/apache//lucene/solr/3.3.0/apache-solr-3.3.0.tgz $ tar xvf apache-solr-3.3.0.tgz $ # 適当
Twitter / @ブルーツリー: Sen以外でのJavaのOSSの形態素解析器があるな ... で知った Kuromoji - ATILIKA Community Innovation という形態素解析器は, Solrで利用することができます. Lucene & Solr Integration - Koromoji - Confluence 5/16のSolr勉強会での評価をKuromojiでも行ない追記しました. Solr/Tokenizer評価201105 - 春山征吾のWiki - livedoor Wiki(ウィキ) Solr/Tokenizer評価201105/KuromojiTokenizer - 春山征吾のWiki - livedoor Wiki(ウィキ) Kuromojiは...dictionaries are based on MeCab-IPADIC とのことです
たまたま#SolrJPのハッシュタグを見ていたら、exabugsさんのつぶやきを見つけて、Solrのソースを追いかけてみたりしました。折角良いネタを頂いたので、しっかりblogのネタにさせてもらいますw この問題はSolr3.1からなのかどうかは調べていませんが、確かにhighlightingの結果として返される文字列は、非ASCII文字が数値文字参照になっています。 試しにSolr3.1で「日本語テスト」という文字列に対して「日本語」で検索してみます。 ブラウザで見ると と、問題無く表示されているように見えますが、実際に返されているXMLを見てみると このように非ASCII文字が数値文字参照になっている事が分かります。 この事には気付いていたのですが、私には実害があまり思い当たらなかったので放置していました。 英語圏で作られたライブラリのコードで何度か見かけた事があります。 むかーしむか
2011年3月にリリースされた Solr3.1.0 とそれまでの最新バージョンであったSolr1.4.1 とで速度比較を行ってみました。内包している Lucene の性能が上がったためでしょうか、かなり高速化されているようです。 私の試したところ下記となりました。 レスポンス : 1.4 倍 (平均 26ミリ秒 -> 19ミリ秒) スループット 1.33 倍 (5874/分 -> 7807/分) テスト環境 CPU インテル(R) Xeon(R) プロセッサー E5630 (12MB L3 キャッシュ、2.53GHz、5.86GT/s、4コア) メモリ 24GB (4GBx6) DDR3 RDIMM メモリ(1333MHz、ECC) ディスク 1.5TB SATA 3.0GB/s NCQ HDD (7200回転) × 2 OS CentOS release 5.5 (Final) Java
※2011年11月30日 追記 Tomcat 7、Solr 3.5.0でのインストールを試してみました。 DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する 以前、Apache Solr をインストールしてみましたが、 その後放置してました。 Debianで全文検索サーバー「Apache Solr」を動かす http://symfoware.blog68.fc2.com/blog-entry-131.html 改めて調べてみます。 Tomcatの導入 前回はSolr同梱のjettyで動作させましたが、今回はTomcatで 動かしてみようと思います。 ※Tomcatの方が経験が多いので。 Javaはインストール済の前提で話を進めます。 今回はJava1.6.0_16を使用しました。 Tomcatのダウンロードは Tomcat 6 Downloads
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く