タグ

開発とSolrに関するd4-1977のブックマーク (10)

  • solr で独自基準ソート(function query) - LIFULL Creators Blog

    ネクストでレコメンドエンジン開発をしてる古川です。 solrにおいて、複数フィールド値を組み合わせたソートを 実現する方法について紹介します。 実現方法としては、 function query を組み合わせて実現 独自のfunction query を作成して実現 独自のsearch component を作成して実現 という三つの方法があり、上から下に 実装方法: 簡単 → 大変 実行速度: 遅い → 早い 応用範囲: 狭い → 広い という特徴があります。 昨年リリースした、「HOME'S へやくる!」では、 2の方法で、たとえ指定した条件にすべて合致しなくても、指定した条件に、 近い順に物件リストを返すということを実現しています。 今回は、まず、1. function query を組み合わせによる実現方法を 紹介したいと思います。 以下、solr4.6.1 をベースに説明しますが、

    solr で独自基準ソート(function query) - LIFULL Creators Blog
  • SolrのcopyFieldとdynamicFieldを使いこなす

    僕は、その昔、SIerで企業の業務システムの構築をしていました。 名寄せ検索とかよくある機能。例えば、姓名か名前に”海”って文字列が入ってる〜的な。 考えられるユースケース的には、企業の営業部とかで、、 Aさん:xx社のxx担当の人の名前なんだっけ? Bさん:春野さん だか、ナンチャラ春美さん だか、そんな感じ〜 Aさん:了解!調べてみる〜(検索窓に”春”って入力してボチっと) 当時はオープンソースの検索エンジンとか馴染みがなくて、RDBMSのLike検索で頑張っていました。 お察しの通りに、データ件数が増えていくとイヤ〜ンな事になったりして。 パフォチューしようにも、あんまりデータベースのスキーマ変えられなかったり。。 ということで、当時コレがあったらさぞかし便利だっただろうに、、というSolrの機能をご紹介したいと思います。 流れ的には↓の最近改訂版が出た Apache Solr入門

    SolrのcopyFieldとdynamicFieldを使いこなす
  • 第10回 Solr 勉強会にいってきた - 復刊 ボルシチは食べ物です。

    3月26日に開催された、第10回 Solr 勉強会にいってきた。だいぶ遅くなったけどもろもろメモ。 http://atnd.org/events/37170 辞書型コーパスからの類義語知識の自動獲得 株式会社ロンウイット 関口さん 資料 http://www.slideshare.net/KojiSekiguchi/wikipediasolr Solr で同義語検索は SynonymFilter で簡単にできるけど、辞書を用意するのが大変。 Wikipedia から同義語辞書を作ってみましょう的なお話し。 誤抽出は検索時に上位にさせない工夫をする余地があるので、実用になりそう。 今回の抽出対象は原型語とその省略語ということで、「Mr.Children」と「ミスチル」のようなものは対象外。 そのような類義語辞書が必要な場合は別の方法(手動?)が必要。 オライリーから Lucene / Sol

    第10回 Solr 勉強会にいってきた - 復刊 ボルシチは食べ物です。
  • 第10回Solr勉強会 at VOYAGE GROUPに行ってきました

    ここのところ、業務でSolrを触ってないせいか、っていうか、 ↓のブログ書いたの最後カモ的な感じで、 先日リリースされたSolr4.0と話題のSolrCloudを試してみる | shinodogg.com アンテナ下がり気味で、勉強会があることを直前まで知りませんでした。。 そんなこんなで10分ちょい遅刻くらいで参加させていただきました。 ■ 1. 株式会社 ロンウイット 関口 宏司さん タイトル:Wikipediaからの類義語知識の自動獲得について 10分くらい遅れて参加。何やら難しい数式が。。 精度と再現率の算出→結構人手で。 ウィキペディアの見出し語はそんなに精度が高くない。 ・結果 ”サンジャポ”とか、”マツケン”も二種類ちゃんと取れるし。”丸ビル”とか。 ⇒ 日語は発音が長いとすぐ略されてしまうのが分かる。 ・失敗も当然ある。 ”スマホ”は抽出できたけど”スマフォ”はできない。

    第10回Solr勉強会 at VOYAGE GROUPに行ってきました
  • 東京Ruby会議10 (#tkrk10) で「レシピ検索開発のレシピ」という話をしました。 - Stats of the Rivers

    感想 #tkrk10 クックパッドの検索を支える二人のエンジニア…一体何者なんだ…— No6 (@No6) January 13, 2013 おれにとってクックパッドの話が参考になる時代は終わった… #突然のperl死— チュッチュとはえ10歳 (@tohae) January 13, 2013

    東京Ruby会議10 (#tkrk10) で「レシピ検索開発のレシピ」という話をしました。 - Stats of the Rivers
  • [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット

    Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane

    [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット
  • iQONでのファッションアイテムの検索(Solr導入編) | VASILY TECH BLOG

    こんにちは、この夏はほぼ毎日ガリガリくんをべていた村田です。 最近無意識的にガリガリ君をべなくなったことで秋を感じつつあります。 今回のリニューアルではiQONのバックエンド(DB、WebAPI、検索、バッチ処理など)のシステムを担当しました。 今日はファッションアイテムの検索について紹介したいと思います。 Apache/Solrの採用 今回のリニューアルを機にファッションアイテムの検索にApache/Solrを採用しました。 採用に踏み切った理由として 検索速度 今までiQONではファッションアイテムの検索にMySQLを使っていました。 日に日に増えるデータ量に合わせて検索のスピードは落ちて行き、その都度対応するという苦しい日々が続きました。 単純にMySQLを使う従来のやり方よりは確実にスピードは期待出来ると思っていました。 実際にフタを開けてみると約5〜7倍の速度を確保す

  • 検索技術を使うなら知ってないと損する6つのこと~クックパッド、グリー、ぐるなび、CROOZは検索技術をどう使っているのか(2/2) - @IT

    グリーでログ分析システムの開発を行っている一井崇氏からは、「全文検索のちょっとちがった使い方(仮)」と題する発表があった。 グリーにおける数値指標管理では、基となるデータの総数が「1億キー×最大7年」という膨大な量に上り、さらに時間ごとに増え続けるアプリIDとの組み合わせなども考慮すると、すでに人間の手では管理しきれない状態にある。 同社ではMySQLベースのKVS(Key Value Store)によって、これらのデータを管理しているが、問題はkeyの数が膨大過ぎて必要なkeyを見つけるのが困難になっていることだという。 その解決のためにHadoopやMongoDBを導入するといった選択肢もあるが、同社が取った方法は「key stringを全文検索することで目的のkeyを探す」というものだった。一井氏によれば、グリーの数値指標管理システムの目的を整理すると、以下のようになるという。 や

  • 慎ましい構成で使うSolr « NAVER Engineers' Blog

    お世話になっております、開発チームの池上です。 最近ちょっとした検索機能にSolrを導入しました。Solrは検索エンジンのミドルウェアでご存知の方も多いと思います。大規模な構成による導入実績が豊富でWeb上にもたくさんの事例がありますが、今回は慎ましい構成の事例を紹介させて頂こうと思います。 使用しているSolrのバージョンは2012年1月時点で最新の3.5.0です。 なお、検索エンジンやSolrに関する基礎的な情報につきましては、有用な解説がすでに多数存在していますので割愛させて頂きます。 今回はつぎの前提条件と要件を意識して構築しました。 前提条件 サーバは極力少なめで ミッションクリティカルな機能ではない データ量はそれほど多くない 要件 更新はある程度頻繁 遅くとも数分以内にはインデックスに更新を反映させたい 一般的なWeb検索のように「いい感じに見つける」よりは「(入力されたキ

  • 第9回 Solr 勉強会にいってきた - 復刊 ボルシチは食べ物です。

    昨日 (11月26日) に開催された、第9回 Solr 勉強会にいってきた。もろもろメモ。 http://atnd.org/events/33718 Who we are, what we do, and a little bit about Kuromoji Atilika Inc. Christian Moen さん Kuromoji コミッタ Atilika Inc. の紹介 Kuromoji の紹介 Kuromoji の今後について 感想 試される英語力 いくつか Solr 4.1 で取り込まれる改良が面白そう(サジェスタ?等) Solr@ニコニコ生放送 株式会社ドワンゴ 吉村総一郎さん (@sifue) http://www.slideshare.net/sifue/20121126-solr MySQL + senna から Solr へ乗り換え 生放送開始後1分以内に検索にヒ

    第9回 Solr 勉強会にいってきた - 復刊 ボルシチは食べ物です。
  • 1