Speaker: 杉木 健二, 藺 彦鵬 検索チームでは、昨年からサジェスト・関連ワード・おすすめタブなど、検索機能を開発・改善してきました。世界を目指すチームの紹介と具体的な各機能の開発についてご紹介します。
The "Tagger" Request Handler, AKA the "SolrTextTagger" is a "text tagger". Given a dictionary (a Solr index) with a name-like field, you can post text to this request handler and it will return every occurrence of one of those names with offsets and other document metadata desired. It’s used for named entity recognition (NER). The tagger doesn’t do any natural language processing (NLP) (outside of
The settings in this section are configured in the <updateHandler> element in solrconfig.xml and may affect the performance of index updates. These settings affect how updates are done internally. <updateHandler> configurations do not affect the higher level configuration of RequestHandlers that process client update requests. <updateHandler class="solr.DirectUpdateHandler2"> ... </updateHandler>
If you use Prometheus and Grafana for metrics storage and data visualization, Solr includes a Prometheus exporter to collect metrics and other data. A Prometheus exporter (solr-exporter) allows users to monitor not only Solr metrics which come from Metrics API, but also facet counts which come from Searching and responses to Collections API commands and PingRequestHandler requests.
Apache Solrを使った、Webクローリングと全文検索をどうやってやろうかなぁ〜と思いまして。 OSSのクローラーっていくつかあると思うんですけど 参考) Comparison of existing open-source tools forWeb crawling and indexing of free Music http://ja.scribd.com/doc/123153248/Comparison-of-existing-open-source-tools-for-Web-crawling-and-indexing-of-free-Music#scribd FessやNutchのようなものを使ってもよいのですが、今回はある程度カスタマイズなどを前提にして、自分でプログラムを書くタイプのものがいいなぁと思いまして。 で、今回選んだのがこちらのcrawler4j。 craw
Descriptions of the Data Import Handler use several familiar terms, such as entity and processor, in specific ways, as explained in the table below. Datasource As its name suggests, a datasource defines the location of the data of interest. For a database, it’s a DSN. For an HTTP datasource, it’s the base URL. Entity Conceptually, an entity is processed to generate a set of documents, containing m
Streaming Expressions provide a simple yet powerful stream processing language for Solr Cloud. Streaming expressions are a suite of functions that can be combined to perform many different parallel computing tasks. These functions are the basis for the Parallel SQL Interface. Request/response stream processing Batch stream processing Fast interactive MapReduce Aggregations (Both pushed down facete
こんにちは、バックエンドエンジニアの塩崎です。 最近のTECH BLOGではMatzさんのインタビュー記事を書いたり、RubyKaigiの発表まとめを書いたりして、他人の褌で相撲を取っていました。 今回は心を入れ替えて(?)、自分自身が取り組んだ内容について書きます。 VASILYでは検索用のミドルウェアとしてApache Solr(以下、Solr)を使用しています。 全文検索や、ファセット機能などはMySQLだけでは不十分なために、Solrを併用しています。 Solrのサーバー構成例にはいくつかのパターンがありますが、今回はその中でも最も可用性の高いSolrCloudをサービスインしたので、それについて紹介を行います。 Solrの構成例を幾つか紹介 Solrの構成例は大きく以下の3つに分けられます。 まずは、それぞれについて詳しく説明していきます。 スタンドアローン構成 master s
Solr 5.4 の環境構築で、ログ周りの設定が意外につまったので、整理としてのメモ。 ログの種類 おおむね、次の三つ gcログ solr本体 jetty(アクセスログ) アクセスログは標準では出力されないですし、大体の場合は不要でしょうが、solr 3.x 以前はtomcatにデプロイした形だとtomcatのアクセスログがあったので、それも残しておきたいケースもあるかと思い、あわせてとりあげます。 起動時の設定ファイル 公式サイトにあるように、インストールスクリプトでやったものとします。 https://cwiki.apache.org/confluence/display/solr/Taking+Solr+to+Production#TakingSolrtoProduction-Logsettings /etc/init.d/solr が起動スクリプトで、その中のSOLR_ENVに指定
If you are already using Solr 6.5, Solr 6.6 should not present any major problems. However, you should review the CHANGES.txt file found in your Solr package for changes and updates that may effect your existing implementation. Detailed steps for upgrading a Solr cluster can be found in the appendix: Upgrading a Solr Cluster. Solr contribs map-reduce, morphlines-core and morphlines-cell have been
Apache Solr includes the ability to set up a cluster of Solr servers that combines fault tolerance and high availability. Called SolrCloud, these capabilities provide distributed indexing and search capabilities, supporting the following features: Central configuration for the entire cluster Automatic load balancing and fail-over for queries ZooKeeper integration for cluster coordination and confi
GCP上で検索エンジンを動かしたくなることは割とある思いますが、小規模な検索サーバを極力メンテフリーでGCP上で動すための方法を模索・稼働することになったのでメモ代わりに。 はじめに 検索が必要とされるプロジェクトであっても、検索対象となるコンテンツは割と小規模(10万程度)で、検索インデックスの更新頻度も日次で十分という、ライトな条件であることも案外多いのではないかと思います。そこで以下条件を踏まえてGCP上で検索サーバを動かす方法をいろいろ考えた結果、GKEで検索サーバを立てて動かすことにしました。 検索条件 検索対象のコンテンツはDatastore(やBigQuery)に入っている いろいろなフィールドに対して込み入った論理式で条件絞り込みを行いたい(位置条件含む) 表記揺れ・記入ミスが多少あってもうまく文書を引っ張りたい 用途に応じてランキングをカスタマイズしたい 検索インデックス
この記事は一休.comアドベントカレンダー2017の22日目です。 いよいよ今年も終わりですね。 みなさん クリスマスの、忘年会のご予約はすみましたか? というわけでアドベントカレンダー2打席目、一休.comレストラン 検索 & 集客担当のにがうりです。 一休の本社は赤坂見附の駅からほど近くにあり、お昼ごはんの選択肢が非常にバラエティに富んでいるのが嬉しいところです。 もちろん、その中には一休.comレストランにご加入いただいている店舗様もたくさんあります。 本エントリでは 筆者のお昼休み中に通える範囲内にあり 一休.comレストランでランチが予約できる レストランがどのくらいあるのか、Solrの空間検索( Spatial Search )を利用して調べてみました。 なお、前回のエントリ同様、Solrのバージョンは7.1.0を前提としています。 事前準備 Solrのスキーマ構成 ひとまず、
I have solr setup, which is configured for Master and slave. The indexing is happening in master and slave is replicating the index at every 2 Min interval from master. So there is a delay of 2 Minutes in getting data from master to slave. Lets assume that my master was indexing at 10:42 some data but due to some hardware issue, master went down at 10:43. So now the data which was indexing at 10:4
Solr is the popular, blazing fast open source enterprise search platform from the Apache Lucene project. Its major features include powerful full-text search, hit highlighting, faceted search, near real-time indexing, dynamic clustering, database integration, rich document (e.g., Word, PDF) handling, and geospatial search. Solr is highly reliable, scalable and fault tolerant, providing distributed
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く