![Amazon.co.jp: 検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏: 山田浩之, 末永匡: 本](https://cdn-ak-scissors.b.st-hatena.com/image/square/c72952c1f0e957c449c688cc4d10505aaaf447a1/height=288;version=1;width=512/https%3A%2F%2Fm.media-amazon.com%2Fimages%2FI%2F51iG9lJw21L._SL500_.jpg)
小西秀和です。 2020年度に続き2021年、2022年、2023年もJapan AWS All Certifications Engineer(旧称:APN ALL AWS Certifications Engineer)、Japan AWS Top Engineer(Services) (旧称:APN AWS Top Engineer)に選出していただきました。これも多くの方に読んでいただいたAWS認定記事に依るところが大きいと思いますが、今後はAWS認定以外の記事も書いていこうと思います。まずはデータベースに関するテーマからです。 AWSのデータベースサービスには現在、Amazon Aurora、Amazon DocumentDB、Amazon DynamoDB、Amazon ElastiCache、Amazon Keyspaces (for Apache Cassandra)、Am
Conclusions (TL;DR) Prefer multiplicative boosting to additive boosting. Be careful not to confuse queries with functions. Recently I inherited a Solr project. Having never used Solr or Lucene before, but being well-versed in the dark arts of computational linguistics (from ye olde university days, anyway), I was eager to roll up my sleeves and get acquainted with it. I’d seen the formulas and p
A little more detail on Commit/Optimize: Commit: When you are indexing documents to solr none of the changes you are making will appear until you run the commit command. So timing when to run the commit command really depends on the speed at which you want the changes to appear on your site through the search engine. However it is a heavy operation and so should be done in batches not after every
このようにすることで、 そもそも mecab-ipadic-NEologd に意味はあるの? mecab-ipadic-NEologd で分かち書きして悪影響は無いの? mecab-ipadic-NEologd を週2回も更新することに意味はあるの? などの典型的な疑問について考察する材料を得たいと考えました。 学習器と特徴ベクトルの作り方 学習器は LIBLINEAR を使用しました。LIBLINEAR で学習するときのパラメーターですが、今回は辞書やデータごとに最適なパラメーターを探すことが今回の目的ではありません。そこで、別の期間のデータと MeCab 用の辞書を用意して、事前に実験と相対的に同様なデータと辞書の関係を作って探索することにしました。その結果、「s=5, c=0.8, B=-1」という設定が比較対象の UniDic にとって総合的に有利だったのでそれを採用しました。 各
Apache Solr 8.0.0 が 2019 年 3 月 14 日に公開されました。 Solr は Apache Lucene プロジェクトによって手がけられた全文検索サーバです。 強力な全文検索に加え、ハイライト、ファセット検索/分析、空間検索、多彩な REST API に加え、パラレル SQL をその主な特長としています。 Solr はエンタープライズ品質の安全性と高いスケーラビリティを誇り、フォールト・トレラントな分散検索/インデックス作成を可能にし、世界最大規模の多くのインターネットサイトで検索とナビゲーションを提供しています。 今回はメジャーリリースが実施されたため,アップデートの内容が多岐に渡ります。本案内では,その中でも特徴的な機能や変更を以下に記します。 主なアップデート – 機能強化 Solrはノード間通信にHTTP/2を使うようになりました。 上記の他に、今回はメジ
Solr 6でneologdが組み込まれたkuromojiを使う方法 こんにちは、VASILYバックエンドエンジニアの塩崎です。 VASILYでは商品情報の全文検索を行うためのバックエンドに、Apache Solr(以下、Solr)を利用しています。 先日、Solrのメジャーバージョンを最新の6にアップグレードしました。 それに伴ってSolrの形態素解析エンジンであるkuromojiに新語辞書であるmecab-ipadic-neologd(以下、neologd)を組み込みました。 この記事では、組み込むことのメリット及び、具体的な組み込み方を紹介します。 kuromojiにneologdを組み込むことのメリット では、まずkuromojiにneologdを組み込むことのメリットを、転置インデックスを利用した全文検索の仕組みに基づいて説明します。 転置インデックスを利用した全文検索の仕組み
こんにちは、バックエンドエンジニアの塩崎です。 最近のTECH BLOGではMatzさんのインタビュー記事を書いたり、RubyKaigiの発表まとめを書いたりして、他人の褌で相撲を取っていました。 今回は心を入れ替えて(?)、自分自身が取り組んだ内容について書きます。 VASILYでは検索用のミドルウェアとしてApache Solr(以下、Solr)を使用しています。 全文検索や、ファセット機能などはMySQLだけでは不十分なために、Solrを併用しています。 Solrのサーバー構成例にはいくつかのパターンがありますが、今回はその中でも最も可用性の高いSolrCloudをサービスインしたので、それについて紹介を行います。 Solrの構成例を幾つか紹介 Solrの構成例は大きく以下の3つに分けられます。 まずは、それぞれについて詳しく説明していきます。 スタンドアローン構成 master s
以前から興味があった、LuceneとSolrでのDeep paging関連のチケットを整理してみました。 調べてみたら、分散検索(Distributed Searchの機能)ではおろか、単体のSolrでもちゃんとサポートされてなかったっていう。 Deep paging問題とは Deep paging問題の概要については、以下のブログエントリが参考になる。 Deep paging problem | Solr Enterprise Search 例えば、以下のようなSolrクエリを想像してみよう。 q=*:*&sort=price+asc&rows=100&start=50000 このクエリは、Luceneインデックスに対して50,001件目から50,100件目までの100件の結果を取得しようとしている。 しかし、SolrはLuceneインデックスから50,100件のドキュメントを読み込んで
この記事は一休.comアドベントカレンダー2017の6日目です。 一休.comレストラン 検索・集客担当のにがうりです。 一休.com、一休.comレストランともに、検索には主にSolrを利用しています。 (一部、RDBで検索しているところもあります) RDB(SQL)ベースでの検索と比べると色々とメリットがありますが、その中でもファセットナビゲーションに必要な機能が揃っているのは大きな魅力と言えるでしょう。 ファセット例 Solr5.xからは、旧来のファセットとは異なるJSON Facetという機能が新たに提供されており、特に問題(後述の注意点を参照)が無いのであれば、こちらのほうが利用しやすいでしょう。 しかし、JSON FacetはSolrのサイト上では言及がなく、開発者のサイトがドキュメントになっている状況のためか、いまいちマイナーな存在に留まっているように感じます。 このエントリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く