タグ

javaとsolrに関するdannのブックマーク (9)

  • apache solrでまじめな検索つくるよー! - 刺身の上にたんぽぽ乗せる日記

    なんだかんだで結構自分でも使ったりするので、真面目に作ることにしてみた。 一応目標は、 日付でソートされた結果 ブックマーク数によりフィルタリング 日付・ブックマーク数を利用した重み付け付きの検索結果 が出せればいいと思ってる。最後のはどういう式を使えばいいのかわかんないから、そのうち考えるかな、という感じだけど。 mysqlというかtritonnのデータを読み込んでindex作るところまでできた。 使ったのはapache-solr-3.1.0。 以下参考にした記事。 MySQLからインポート http://ochien.seesaa.net/article/153191074.html HTMLタグを削除する http://wiki.apache.org/solr/DataImportHandler#HTMLStripTransformer テキストを日語でindex http://d

    apache solrでまじめな検索つくるよー! - 刺身の上にたんぽぽ乗せる日記
  • Ameba サーチの仕組みについて(Solrについて)

    Yonik Seeley ( =カウントの取得&マージ処理が重い ) ・ Lucene ベース ・ 100% Java の Web サーバアプリ ・ HTTP インターフェース ( XML 、 JSON 、 binary 、 RubyPythonetc. ) ・拡張可能なアーキテクチャ  (自作のフィールドタイプなども定義可能) 死活監視 2 秒おき UseBiasedLocking :衝突が起こらないよう、同期のパフォーマンスを向上させる DoEscapeAnalysis :メソッドコンパイルのスコープで、シングルスレッドからしか参照されないようなオブジェクトへの割当を最適化する UseParNewGC :マイナー GC をマルチスレッドで実行 CMSParallelRemarkEnabled :メジャー GC の Remark フェイズをマルチスレッドで実行 Use

  • Rapid prototyping with solr – Port twenty two

    dann
    dann 2010/11/18
  • Solr のディレクトリ構造: おちエンのブログ

    solr にはゼロから make できるようにソースファイルがついてきたり、サンプルを実行できるように jetty が同梱されてたりします。 それが原因でディレクトリ構造が複雑になっている気がします。 今回はこのディレクトリ構造を解明したいと思います。 solr は jetty で動かすという前提にすると、example というディレクトリ名が気に入らないのでこれを変更することにします。ただ、example ディレクトリはほとんど jetty に関連するファイルになっているため、example ディレクトリを jetty ディレクトリと名前を変えようと思います。 そうすると、make 前のディレクトリ構造は以下のようになります。 jetty ディレクトリより上のディレクトリは、solr を make するための Makefile (build.xml) やソース群です。 jetty ディレ

    dann
    dann 2010/09/09
  • Solr勉強会に行ってきました。2010 - 不可視点

    3月11日にECナビにて第2回Solr勉強会がありました。事例紹介に「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。皆さんの発表の内容とか感想はのちほど追記…twitter/#SolrJP,yats/#SolrJP スライド:Solr@twitter検索2010 solr@twitter検索2010View more presentations from penguinana. 分かりにくいスライドですが「考え方が根的に間違っている!」「これはこうすべきだし!」「これを使うべき。」「ここはどうなってるの?」などお気づきの点ありましたらコメント欄などでお知らせください。 もう少しSolrいじってみてまたブログに書いたりしてみようと思います。 メモ 追記予定

    Solr勉強会に行ってきました。2010 - 不可視点
  • 第6回 Solr/Luceneの活用に知っておくべき点

    前回までに,Solr/Luceneの概要と簡単な導入検証までを説明しました。Lucene自体はライブラリであることから,これを利用して高度なアプリケーションを独自に実装することも可能ですが、簡単な検索機能であればSolrを利用し、比較的容易に利用できることがお分かりいただけたのではないでしょうか。今回は,導入のための留意点と,周辺のツール類を紹介します。 Solr/Lucene導入の実際 では,導入時の留意点について順に説明してきましょう。 ●インデックス設計 一般的に全文検索エンジンは,プレーンテキストのような非構造化データを効率良く検索するものです。そのため,データを格納するインデックスに対して,データを「ともかく放り込む」といった設計も可能です。 誤解を恐れずにいえば,その考え方自体は大きく間違っていません。しかし,インデックスの構造を充分に設計した方が,より効率の良い効果的な検索機

    第6回 Solr/Luceneの活用に知っておくべき点
    dann
    dann 2009/08/18
    Heritrix
  • 第5回 全文検索エンジン「Lucene/Solr」を導入する

    今回は実際にLinuxマシン上にSolr/Luceneをインストールします。インデックスにデータを投入した上で,Solr/Luceneに組み込まれている管理機能の画面から検索を実施するところまでを紹介します。 今回の作業で必要になるモジュール類は以下の通りとなります。 - Solr(Luceneは同こん) - Java SDK(1.5以降) - lucene-ja(N-gram解析機能) - sen(形態素解析機能) なお,今回の作業では日語解析モジュールを導入しますが,その中で形態素解析モジュール用の辞書の作成が必要になります。形態素解析モジュール用の辞書作成作業では以下のモジュールが必要になります。 - ant(1.7以降) - perl(5.0以降) では,導入作業を進めましょう。 (1)Javaのインストール まず,最新のSolr 1.3ではJava 1.5以上のバージョンが必要

    第5回 全文検索エンジン「Lucene/Solr」を導入する
  • Solr勉強会の資料公開しました:マピオンラボ(セミナー/勉強会)

    こんにちわ、マピオンで開発を担当している谷です。 7/21日Solr勉強会に参加してきました。 前半は、ロンウイットの関口さんによるSolrに関してのお話。 その後、事例紹介ではECナビ春山さん、リクルート植野さん、マピオン。 少しここでいいわけ。 事例紹介で資料の1ページがなくなったことについて 緊張からdeleteボタンを押しちゃってました。笑 ということで、事例紹介資料をアップしましたので見てください。 tokenizerの件ですが、 形態素解析用のフィールド、ngram用のフィールド2つ用意する方法があります。 が、これだとSolrの検索でクエリーが複雑になってしまうというデメリットが。。 やはり1つのフィールドでやりたいというのもあり、 勉強会があるのでどなたか一緒に研究しませんかと誘ってみたしだいです。 LTでは、Y!西岡さんのジオコーダーのお話、ECナビ春山さん

  • 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

    はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全

  • 1