[B! Solr] fumiyasのブックマーク

形態素解析とNgramを併用したハイブリッド検索をSolrで実現する方法 - ZOZO TECH BLOG

こんにちは、バックエンドエンジニアの塩崎です。今まではiQONの全文検索用のインデックスには形態素解析だけを用いていましたが、先日Ngramも併用することで検索を改善しました。その結果、検索結果のヒット数が向上し、なおかつ検索ノイズの増加を軽微なものに抑えることができました。この記事では、Ngramを併用することのメリット、およびそれをApache Solrで利用する方法について紹介します。欲しい情報が見つからないとはそもそも、「検索したけど欲しい情報が見つからない状態」とはどのような状態でしょうか？ここではその状態を以下の2つの状態に分解して考えてみます。欲しい情報の数が少ない 1つ目の状態は「欲しい情報が検索結果中に少ない」状態です。例えば、旅行情報サイトで「東京」と検索した時にDBの中には数千件のデータがあるのに検索結果数がわずか数件しかないような状態です。欲しくな

fumiyas 2017/02/19

Solr

リンク

OSSのツール「Solr」「Flume」「Banana」の組み合わせによるデータ可視化プラットフォーム構築

ヤフー株式会社には、技術や制作の分野において専門性に優れたエキスパート人財を「黒帯」に認定し、その活動を手厚く支援する黒帯制度があります。「ある分野に突出した知識とスキルを持っているその分野の第一人者」が黒帯として認定され、褒賞金と活動予算が付与され、それぞれの分野のエバンジェリストとして社内外で活躍します。この黒帯によるリレー連載として、第2回目は「Solr黒帯」が執筆します。はじめに企業において、データの可視化（Visualization）の重要性が取り上げられ、今注目されています。WebサイトやECサイトを運営しているのであれば、サーバーのアクセスログには、現在までの顧客の活動記録といった膨大な量のデータが蓄積されており、顧客がどんなキーワードで自社サイトにたどり着いたのか、どんな商品を購入していったのかなど、その内容は多岐にわたります。そのデータを分析することで、新たな発見につ

fumiyas 2016/11/16

リンク

Apache Solrを使った検索サジェスターの作り方まとめ - Qiita

概要 Apache Solr(以下、Solr)で商品検索のサジェスターを作ったので、それを紹介します。サジェスターを作るにあたり、どのようにスキーマやサーチコンポーネントを定義すれば良いのかを説明します。なお、この記事はsolr 4.10.4を対象にした記事です。それ以外のバージョンでは設定項目が変わってくる場合があります。サジェスターとはサジェスターとは、ユーザーが検索用のフォームに単語を入力している途中に、その入力途中の単語を補完する機能です。例えば、Google検索でサジェスターについて調べようとした時に、「さじぇ」と入力した時点で以下のように「さじぇ」に続く単語が候補として現れます。このような機能を実装することによって、ユーザーがテキストを入力する手間が省けたり、入力間違いをした単語で検索をしてしまうことを防げたりする効果があります。日本語のサジェスターの難しいとこ

fumiyas 2016/08/19

Solr

リンク

第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案

fumiyas 2016/04/11

Solr

リンク

pixiv サイバーエージェント共同勉強会 solr導入記

8. Mysql の全文検索には更新時ロックがかかる MyISAM のため Replication で更新クエリーがくるとそこでロックがかかってしまう CPU のコア数でスケールできないロックがかかるため CPU が１コア分くらいしか使い切れていない R-18 など数値のある文字が重いたとえば６を検索したとき⑥や全角半角の６なども OR 検索し条件が増える揺らぎ補正のため Normalize は Off にできない MySQL のバージョンをあげることができない Tritonn が組み込まれたバージョンを使用しなければならないため Mysql5.1 などにアップグレードできなかった 9. 何かの検索文字 R-18 東方 ( はいてない OR 穿いてない OR はいてません OR 穿いてません OR ノーパン ) ( 髪 OR かみ )( ほどき OR ほどく OR ほどけ OR ほど

fumiyas 2015/02/17

Solr

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

fumiyas 2014/04/28

Solr

リンク

moco(beta)'s backup: Solrのコミット方式いろいろ

Solr (Lucene) ではインデックスを更新(update)しただけでは更新内容は検索結果に反映されません。一般的なRDBと同様、"commit"という操作を行なって初めて、検索結果に更新されたドキュメントが表れます。 Solr Wiki では"commit"は次のようにシンプルに定義されています。 A commit operation makes index changes visible to new search requests. また、コミットには(hard) commit / soft commitの2種類があります。(4.0より) (hard) commit (従来のfsyncを伴うコミット)soft commit (fsyncを伴わないコミット, 4.0から採用)soft commit はいわゆる擬似リアルタイム検索（Near Realtime Search）を実現す

fumiyas 2014/04/28

Solr

リンク

Solr vs elasticsearch 類似文書検索（日本語解析の設定） | Synergy Marketing LAB

こんにちは、馬場です。 Luceneベースのオープンソースの全文検索エンジンとしては、Solrとelasticsearchが知られていますが、この記事では日本語の類似文書検索機能に関して、両者を比較します。この記事は機能の比較はせずに、日本語の類似文書検索を実現するにあたり設定やプログラムの実装がどのように違うのか、具体的な設定やプログラムとともに紹介します。 ※　この記事では、Solr 4.6.0 とelasticsearch 0.90 の比較を行います。実現したいこと類似文書検索機能をScalaで実装する文書は日本語。文書はID、タイトル、本文、公開日からなる。顔文字の検索も可能にしたいので、記号もインデクシングする。ユーザ辞書を利用するドキュメント Solr のサイトは以下です。 http://lucene.apache.org/solr/ 簡単なチュートリアルがあり

fumiyas 2014/04/17

リンク

全文検索エンジン Solr のパフォーマンスチューニングについて - にょきにょきブログ

この記事は古くなりました。新しい知見は下記を参照。aoking.hatena blog.jp 概要全文検索エンジン Solr を使用していて、パフォーマンスチューニングに四苦八苦した話。ここでは、検索時ではなくドキュメントの追加時についてのチューニングについて記してある。更新自体は参照に比べて頻度が少ないが、参照はレプリケーションして負荷分散しやすい。更新は整合性を保つために一台のマスターノードに対して行われるので更新はボトルネックになりやすいのだ。定期的に IO 負荷が高くなる Solr を使っていると、一時的に猛烈に IO 負荷が高まる時がある。fsync になんと1分以上かかるような、猛烈な負荷だ。これはインデクスのマージ時に起きる IO 負荷で、巨大なインデクス同士のマージだとその合計サイズ分の IO が発生することで IO 処理が専有されたままになっていた。インデクス

fumiyas 2014/04/17

Solr

リンク

Java製形態素解析器「Kuromoji」を試してみる

概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

fumiyas 2014/02/02

Solr

リンク

『Apache Solrのschema.xmlを読み解く』

前回の「Apache Solrのデモ環境を作ってみる」にて動く環境が作れたので、今回はもう少し突っ込んだApache Solrの設定ファイル周りについて書いていきたいと思います。 Apache Solrの環境設定で触るファイルは大きく2つあります。 1つは、Solrの動作自体を定義するsolrconfig.xmlファイル。そしてもう1つは、Solrに取り込むデータのスキーマ情報を定義するschema.xmlファイルです。何れも、 /path/to/solr/example/solr/collection1/conf に、存在します。先のエントリでも書きましたがcollection1はSolrのコアディレクトリとなるため、コアを追加したらそのコアごとに設定ファイルが存在します。順に説明したいところではありますが、solrconfig.xmlファイル（Solrの管理メニューのConf

fumiyas 2013/12/03

Solr

リンク

GitHub - hatena/solr-tutorial: Solrの導入資料です。LAMP構成に特化しています。

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

fumiyas 2013/11/13

Solr

リンク

SolrとElasticsearchの比較

2. 自己紹介 • 兼山元太 @penguinana_ • レシピ検索チーム @ http://cookpad.com/ • Solr4.0 Sunday, December 16, 12

fumiyas 2013/11/12

リンク

第3回solr勉強会(アメーバにおけるsolrの利用)

Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 第3回solr勉強会(アメーバにおけるsolrの利用) - Presentation Transcript 第3回 Solr勉強会株式会社サイバーエージェント新規開発局安田征弘第3回 Solr勉強会自己紹介・安田征弘（やすだまさひろ）・ 2008年からアメーバで働く・今まで関わったサービス 2008年～ 2010年 - ブログネタ 2010年～ 2010年6月 - アメーバサーチ - なう検索 - タレント検索現在の担当 - アメーバサーチの負荷改善及び機能追加

fumiyas 2013/10/07

Lucene
Solr

リンク

Dovecot と Apache Solr で受信したメールを全文検索: 日誌

はじめにみんな大好き Gmail は検索機能が強力であり、これが理由で Gmail を使っている人も少なくないと思います。しかし、家訓などで Gmail を禁止されている人もいることでしょう。たとえば、自前サーバーに Dovecot をインストールして使っているとか。しかし、Dovecot 標準のままだと検索がちょっと悲しいので、ちょっとだけ強くしてみます。 Dovecot はプラグイン機能で機能強化できますが、そのうちの一つ、fts (Full Text Search indexing) というプラグインを使うと、全文検索が強まります。fts はインデクサとしていくつかのプログラムを選択できますが、ここでは fts_solr 経由で、Apache Solr を使ってみることにします。なお、環境は Ubuntu Precise (12.04.1 LTS) です。 Solr をインストール

fumiyas 2013/10/07

リンク

Apache Solr で全文検索

連載一覧Blog Series Tabulator tips naka2020.07.29 更新 Vimのすゝめ改 v2021.07.21 更新 Vimとセキュリティ問題 v2019.02.01 更新プログラマーの理想と現実 tom2015.07.08 更新フレッツ光ネクスト用IPv6 PPPoEアダプターを作ってみる ko2012.12.05 更新 Gfarm takuya2013.10.17 更新 FreeBSD kernel SOCKET I/F 探検 asou2018.10.03 更新机上デバッグ asou2013.03.06 更新 toza2013.09.04 更新自炊本をスマートフォンで読むための convertガナス naka2015.07.23 更新 Vim 8.0 のすゝめ v2016.12.22 更新スクリプトの勉強 tanino2015.12.16 更新 V