タグ

Solrに関するfumiyasのブックマーク (16)

  • 形態素解析とNgramを併用したハイブリッド検索をSolrで実現する方法 - ZOZO TECH BLOG

    こんにちは、バックエンドエンジニアの塩崎です。 今まではiQONの全文検索用のインデックスには形態素解析だけを用いていましたが、先日Ngramも併用することで検索を改善しました。 その結果、検索結果のヒット数が向上し、なおかつ検索ノイズの増加を軽微なものに抑えることができました。 この記事では、Ngramを併用することのメリット、およびそれをApache Solrで利用する方法について紹介します。 欲しい情報が見つからないとは そもそも、「検索したけど欲しい情報が見つからない状態」とはどのような状態でしょうか? ここではその状態を以下の2つの状態に分解して考えてみます。 欲しい情報の数が少ない 1つ目の状態は「欲しい情報が検索結果中に少ない」状態です。 例えば、旅行情報サイトで「東京」と検索した時にDBの中には数千件のデータがあるのに検索結果数がわずか数件しかないような状態です。 欲しくな

    形態素解析とNgramを併用したハイブリッド検索をSolrで実現する方法 - ZOZO TECH BLOG
    fumiyas
    fumiyas 2017/02/19
  • OSSのツール「Solr」「Flume」「Banana」の組み合わせによるデータ可視化プラットフォーム構築

    ヤフー株式会社には、技術や制作の分野において専門性に優れたエキスパート人財を「黒帯」に認定し、その活動を手厚く支援する黒帯制度があります。「ある分野に突出した知識とスキルを持っているその分野の第一人者」が黒帯として認定され、褒賞金と活動予算が付与され、それぞれの分野のエバンジェリストとして社内外で活躍します。この黒帯によるリレー連載として、第2回目は「Solr黒帯」が執筆します。 はじめに 企業において、データの可視化(Visualization)の重要性が取り上げられ、今注目されています。WebサイトやECサイトを運営しているのであれば、サーバーのアクセスログには、現在までの顧客の活動記録といった膨大な量のデータが蓄積されており、顧客がどんなキーワードで自社サイトにたどり着いたのか、どんな商品を購入していったのかなど、その内容は多岐にわたります。そのデータを分析することで、新たな発見につ

    OSSのツール「Solr」「Flume」「Banana」の組み合わせによるデータ可視化プラットフォーム構築
  • Apache Solrを使った検索サジェスターの作り方まとめ - Qiita

    概要 Apache Solr(以下、Solr)で商品検索のサジェスターを作ったので、それを紹介します。 サジェスターを作るにあたり、どのようにスキーマやサーチコンポーネントを定義すれば良いのかを説明します。 なお、この記事はsolr 4.10.4を対象にした記事です。 それ以外のバージョンでは設定項目が変わってくる場合があります。 サジェスターとは サジェスターとは、ユーザーが検索用のフォームに単語を入力している途中に、その入力途中の単語を補完する機能です。 例えば、Google検索でサジェスターについて調べようとした時に、「さじぇ」と入力した時点で以下のように「さじぇ」に続く単語が候補として現れます。 このような機能を実装することによって、ユーザーがテキストを入力する手間が省けたり、入力間違いをした単語で検索をしてしまうことを防げたりする効果があります。 日語のサジェスターの難しいとこ

    Apache Solrを使った検索サジェスターの作り方まとめ - Qiita
    fumiyas
    fumiyas 2016/08/19
  • 第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案

    第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案

    第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案
    fumiyas
    fumiyas 2016/04/11
  • pixiv サイバーエージェント共同勉強会 solr導入記

    8. Mysql の全文検索には更新時ロックがかかる MyISAM のため Replication で更新クエリーがくるとそこでロックがかかってしまう CPU のコア数でスケールできない ロックがかかるため CPU が1コア分くらいしか使い切れていない R-18 など数値のある文字が重い たとえば6を検索したとき⑥や全角半角の6なども OR 検索し条件が増える 揺らぎ補正のため Normalize は Off にできない MySQL のバージョンをあげることができない Tritonn が組み込まれたバージョンを使用しなければならないため Mysql5.1 などにアップグレードできなかった 9. 何かの検索文字 R-18 東方 ( はいてない OR 穿いてない OR はいてません OR 穿いてません OR ノーパン ) ( 髪 OR かみ )( ほどき OR ほどく OR ほどけ OR ほど

    pixiv サイバーエージェント共同勉強会 solr導入記
    fumiyas
    fumiyas 2015/02/17
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    fumiyas
    fumiyas 2014/04/28
  • moco(beta)'s backup: Solrのコミット方式いろいろ

    Solr (Lucene) ではインデックスを更新(update)しただけでは更新内容は検索結果に反映されません。一般的なRDBと同様、"commit"という操作を行なって初めて、検索結果に更新されたドキュメントが表れます。 Solr Wiki では"commit"は次のようにシンプルに定義されています。 A commit operation makes index changes visible to new search requests. また、コミットには(hard) commit / soft commitの2種類があります。(4.0より) (hard) commit (従来のfsyncを伴うコミット)soft commit (fsyncを伴わないコミット, 4.0から採用)soft commit はいわゆる擬似リアルタイム検索(Near Realtime Search)を実現す

    fumiyas
    fumiyas 2014/04/28
  • Solr vs elasticsearch 類似文書検索 (日本語解析の設定) | Synergy Marketing LAB

    こんにちは、馬場です。 Luceneベースのオープンソースの全文検索エンジンとしては、Solrとelasticsearchが知られていますが、この記事では日語の類似文書検索機能に関して、両者を比較します。この記事は機能の比較はせずに、日語の類似文書検索を実現するにあたり設定やプログラムの実装がどのように違うのか、具体的な設定やプログラムとともに紹介します。 ※ この記事では、Solr 4.6.0 とelasticsearch 0.90 の比較を行います。 実現したいこと 類似文書検索機能をScalaで実装する 文書は日語。 文書はID、タイトル、文、公開日からなる。 顔文字の検索も可能にしたいので、記号もインデクシングする。ユーザ辞書を利用する ドキュメント Solr のサイトは以下です。 http://lucene.apache.org/solr/ 簡単なチュートリアルがあり

  • 全文検索エンジン Solr のパフォーマンスチューニングについて - にょきにょきブログ

    この記事は古くなりました。新しい知見は下記を参照。aoking.hatenablog.jp 概要 全文検索エンジン Solr を使用していて、パフォーマンスチューニングに四苦八苦した話。 ここでは、検索時ではなくドキュメントの追加時についてのチューニングについて記してある。 更新自体は参照に比べて頻度が少ないが、参照はレプリケーションして負荷分散しやすい。 更新は整合性を保つために一台のマスターノードに対して行われるので更新はボトルネックになりやすいのだ。 定期的に IO 負荷が高くなる Solr を使っていると、一時的に猛烈に IO 負荷が高まる時がある。fsync になんと1分以上かかるような、猛烈な負荷だ。 これはインデクスのマージ時に起きる IO 負荷で、巨大なインデクス同士のマージだとその合計サイズ分の IO が発生することで IO 処理が専有されたままになっていた。 インデクス

    全文検索エンジン Solr のパフォーマンスチューニングについて - にょきにょきブログ
    fumiyas
    fumiyas 2014/04/17
  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

    fumiyas
    fumiyas 2014/02/02
  • 『Apache Solrのschema.xmlを読み解く』

    前回の「Apache Solrのデモ環境を作ってみる 」にて動く環境が作れたので、今回はもう少し突っ込んだApache Solrの設定ファイル周りについて書いていきたいと思います。 Apache Solrの環境設定で触るファイルは大きく2つあります。 1つは、Solrの動作自体を定義するsolrconfig.xmlファイル。 そしてもう1つは、Solrに取り込むデータのスキーマ情報を定義するschema.xmlファイルです。 何れも、 /path/to/solr/example/solr/collection1/conf に、存在します。 先のエントリでも書きましたがcollection1はSolrのコアディレクトリとなるため、コアを追加したらそのコアごとに設定ファイルが存在します。 順に説明したいところではありますが、solrconfig.xmlファイル(Solrの管理メニューのConf

    『Apache Solrのschema.xmlを読み解く』
    fumiyas
    fumiyas 2013/12/03
  • GitHub - hatena/solr-tutorial: Solrの導入資料です。LAMP構成に特化しています。

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - hatena/solr-tutorial: Solrの導入資料です。LAMP構成に特化しています。
    fumiyas
    fumiyas 2013/11/13
  • SolrとElasticsearchの比較

    2. 自己紹介 • 兼山 元太 @penguinana_ • レシピ検索チーム @ http://cookpad.com/ • Solr4.0 Sunday, December 16, 12

    SolrとElasticsearchの比較
  • 第3回solr勉強会(アメーバにおけるsolrの利用)

    Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 第3回solr勉強会(アメーバにおけるsolrの利用) - Presentation Transcript 第3回 Solr勉強会 株式会社サイバーエージェント 新規開発局 安田 征弘 第3回 Solr勉強会 自己紹介 ・ 安田征弘(やすだ まさひろ) ・ 2008年からアメーバで働く ・ 今まで関わったサービス 2008年 ~ 2010年 - ブログネタ 2010年 ~ 2010年6月 - アメーバサーチ - なう検索 - タレント検索 現在の担当 - アメーバサーチの負荷改善及び機能追加

  • Dovecot と Apache Solr で受信したメールを全文検索: 日誌

    はじめに みんな大好き Gmail は検索機能が強力であり、これが理由で Gmail を使っている人も少なくないと思います。しかし、家訓などで Gmail を禁止されている人もいることでしょう。たとえば、自前サーバーに Dovecot をインストールして使っているとか。しかし、Dovecot 標準のままだと検索がちょっと悲しいので、ちょっとだけ強くしてみます。 Dovecot はプラグイン機能で機能強化できますが、そのうちの一つ、fts (Full Text Search indexing) というプラグインを使うと、全文検索が強まります。fts はインデクサとしていくつかのプログラムを選択できますが、ここでは fts_solr 経由で、Apache Solr を使ってみることにします。なお、環境は Ubuntu Precise (12.04.1 LTS) です。 Solr をインストール

    Dovecot と Apache Solr で受信したメールを全文検索: 日誌
  • Apache Solr で全文検索

    連載一覧Blog Series Tabulator tips naka2020.07.29 更新 Vimのすゝめ改 v2021.07.21 更新 Vimセキュリティ問題 v2019.02.01 更新 プログラマーの理想と現実 tom2015.07.08 更新 フレッツ光ネクスト用IPv6 PPPoEアダプターを作ってみる ko2012.12.05 更新 Gfarm takuya2013.10.17 更新 FreeBSD kernel SOCKET I/F 探検 asou2018.10.03 更新 机上デバッグ asou2013.03.06 更新 toza2013.09.04 更新 自炊をスマートフォンで読むための convertガナス naka2015.07.23 更新 Vim 8.0 のすゝめ v2016.12.22 更新 スクリプトの勉強 tanino2015.12.16 更新 V

    Apache Solr で全文検索
    fumiyas
    fumiyas 2013/09/18
  • 1