タグ

solrに関するhackedのブックマーク (21)

  • Lucene/SolrをJava 7で使うときの注意(あるいはJava 6以前でもホットスポットのバグを踏む可能性あり) | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    Lucene/SolrをJava 7で使うときの注意(あるいはJava 6以前でもホットスポットのバグを踏む可能性あり) | 関口宏司のLuceneブログ
  • pixiv サイバーエージェント共同勉強会 solr導入記

    8. Mysql の全文検索には更新時ロックがかかる MyISAM のため Replication で更新クエリーがくるとそこでロックがかかってしまう CPU のコア数でスケールできない ロックがかかるため CPU が1コア分くらいしか使い切れていない R-18 など数値のある文字が重い たとえば6を検索したとき⑥や全角半角の6なども OR 検索し条件が増える 揺らぎ補正のため Normalize は Off にできない MySQL のバージョンをあげることができない Tritonn が組み込まれたバージョンを使用しなければならないため Mysql5.1 などにアップグレードできなかった 9. 何かの検索文字 R-18 東方 ( はいてない OR 穿いてない OR はいてません OR 穿いてません OR ノーパン ) ( 髪 OR かみ )( ほどき OR ほどく OR ほどけ OR ほど

    pixiv サイバーエージェント共同勉強会 solr導入記
    hacked
    hacked 2011/07/25
  • Solr のメモリ使用量を小さくする - ぼうずの日常的雑感

    Solr で使われるメモリを減らす必要がある場合に僕がとりあえず考えることを挙げます.以下の内容は僕の Solr 1.3 での経験に基づいてますが,おそらく次期版の 1.4 でも同じではないかと思います.キャッシュを小さくするSolr はメモリ上に検索結果をキャッシュする機構を持っています.これは検索性能を向上するのにとても役立ちますが,メモリをいます.キャッシュは (Solrコアのホームディレクトリ)/conf/solrconfig.xml で定義され,サイズを指定することができます.Solr のキャッシュは何種類かあり,自分で用意することもできますが,たとえば元から用意されており世話になる可能性が高い filterCache は,Solr 添付の example 内の solrconfig.xml で次のように定義されています: キャッシュの容量を小さくするには,size 属性の値を

  • FAQ - Solr Wiki

    This is the Official Solr FAQ. There is also a SolrTerminology document that may be useful for understanding what some documentation means; as well as a Relevancy FAQ for addressing questions specific to how Relevancy Scoring works in Solr. General What is Solr? Solr is a stand alone enterprise search server which applications communicate with using XML and HTTP to index documents, or execute sear

    hacked
    hacked 2010/09/03
    Jetty Specific Bug
  • BasisCon2010-Japanese-Solr-revised.ppt

    Solr www.rondhuit.com Apache Lucene/Solr • Apache Lucene – Java • Apache Solr – Lucene • • N-gram • • • – • • •  •  • •  • Fuzzy • GoogleGoogle CharFilter – Reader CharStream +correctOffset(int):int CharReader input:Reader CharFilter input:CharStream correct(int):int BaseCharFilter pcmList: List<OffCorrectMap> getLastCumulativeDiff ():int addOffCorrectMap (int,int):void OffCorrectMap off:int

    hacked
    hacked 2010/05/12
    ロンウイットさんの資料
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • CJKTokenizerFactory と NGramTokenizerFactory の動作の違い - Solr, Python, MacBook Air in Shinagawa Seaside

    祝 Lucene2.9.0 リリース!! 2009/9/25 に Lucene2.9 がようやく正式リリースされました。 便乗して久しぶりの Solr ネタです。 この記事は Lucene2.9.0 がバンドルされている 2009/09/28版の Solr をもとに書いています。 http://people.apache.org/builds/lucene/solr/nightly/solr-2009-09-28.tgz 日語の文章をインデキシングするときによく使われるトークナイザとして CJKTokenizerFactory があります。 CJKTokenizerFactory は 基的には 2-gram (別名 bi-gram, bigram ) なので NGramTokenizerFactory で maxGramSize="2"としたときと 基的には同じように動作するのですが

  • Ride(らいど)の技術メモ solr schema.xml (1文字の日本語検索が CJKAnalyzer では駄目だった)

    CJKAnalizerでは「花」の1文字の検索を行うと、検索出来ない不具合が見つかった。 その他に検索できない日語が色々出てきたので、CJKAnalizerには身を引いてもらいます。 んで、色々試したのですがどれも一長一短すぎ、使い物にならないので、 N-Gramを使用することにしました。 N-Gram を 1-gram で使用した場合、語句に関係無く文字が一致するとヒットしてしまうので、検索ワードが2文字以上の場合は 2-gram を使用する方針としました。 データ上に検索キーワードが存在するのに CJKAnalizer ではヒットしない場合があるなんて、信じられない!。 solrを使用している事例は日語のページでも見ますが、こういう事が明らかにされていないのは非常に不親切ではないでしょか?? 実際solrの問い合わせパラメータを日語で説明しているサイトも無いし、オープンソースなん

    hacked
    hacked 2010/03/17
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Solr勉強会に行ってきました。2010 - 不可視点

    3月11日にECナビにて第2回Solr勉強会がありました。事例紹介に「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。皆さんの発表の内容とか感想はのちほど追記…twitter/#SolrJP,yats/#SolrJP スライド:Solr@twitter検索2010 solr@twitter検索2010View more presentations from penguinana. 分かりにくいスライドですが「考え方が根的に間違っている!」「これはこうすべきだし!」「これを使うべき。」「ここはどうなってるの?」などお気づきの点ありましたらコメント欄などでお知らせください。 もう少しSolrいじってみてまたブログに書いたりしてみようと思います。 メモ 追記予定

    Solr勉強会に行ってきました。2010 - 不可視点
    hacked
    hacked 2010/03/12
  • ダウンロード - 株式会社ロンウイット

    無料のオンラインハンズオンセミナーを開催しています 詳細・お申し込みはこちら 目次 Apache OpenNLP語固有表現抽出モデルファイル livedoor ニュースコーパス 勉強会/セミナー資料 海外カンファレンス参加報告 セキュリティ警告 アーカイブズ Apache OpenNLP語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。 ダウンロード:rondhuit-ja-ner-1.0.0.zip(Apache License) livedoor ニュースコーパス 概要 コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い

    ダウンロード - 株式会社ロンウイット
  • Debian に Tomcat + Apache Solrの環境を構築

    ※2011年11月30日 追記 Tomcat 7、Solr 3.5.0でのインストールを試してみました。 DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する 以前、Apache Solr をインストールしてみましたが、 その後放置してました。 Debianで全文検索サーバー「Apache Solr」を動かす http://symfoware.blog68.fc2.com/blog-entry-131.html 改めて調べてみます。 Tomcatの導入 前回はSolr同梱のjettyで動作させましたが、今回はTomcatで 動かしてみようと思います。 ※Tomcatの方が経験が多いので。 Javaはインストール済の前提で話を進めます。 今回はJava1.6.0_16を使用しました。 Tomcatのダウンロードは Tomcat 6 Downloads

    Debian に Tomcat + Apache Solrの環境を構築
  • SolrTomcat - Solr - Apache Software Foundation

    {{{#!wiki red/solid Beginning with Solr 5.0, Solr is no longer distributed as a "war" (Web Application Archive) suitable for deployment in any Servlet Container. Solr is now distributed as a stand alone java server application, including start and stop scripts for use on Unix and MS-Windows platforms, as well as an installation script for setting up a "production" installation of Solr on *nix plat

  • Solr 1.3と1.4の検索パフォーマンス比較 - kaisehのブログ

    TopHatenarとBlogopolisでは現在、全文検索用途にApache Solr 1.3を使っていますが、去年11月にSolr 1.4がリリースされたので、近いうちに1.4に移行したいと思っています。 そこで、1.3と1.4の検索パフォーマンスにどのくらい差があるのか、TopHatenarで収集しているブログの文データを使って、以下の条件で計測してみました。 計測は、事前にSolrをウォームアップし、キャッシュが十分に効いた状態で行いました。 Solrサーバ環境 OS: CentOS 5.4 (x86_64) CPU: Phenom II X4 905e RAM: DDR2-800 9GB HDD: Seagate ST3160815AS (160GB, 7200rpm) JRE: 1.6.0_17-b04 (64bit) Tomcat: 6.0.20 Solrのキャッシュ設定

    Solr 1.3と1.4の検索パフォーマンス比較 - kaisehのブログ
  • Solr1.4-devとcmecab-java

    cles::blog 平常心是道 blogs: cles::blog NP_cles() « VMWareでディスクを拡張する :: 正規表現で制御文字をフィルタする » 2009/06/29 Solr1.4-devとcmecab-java  nlp  java  solr 263 0へぇ 最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。 Solr 1.3で日語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示*1している場合が多いようです。 <fieldType name="text_sen" class="solr.TextField"> <ana

    Solr1.4-devとcmecab-java
  • 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

    はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全

  • Solr勉強会行ってきた。 - public static void main

    21日にECナビさんで開催されたSolr(そーら)勉強会に参加してきました。 http://atnd.org/events/937 Luceneを1、2年前ぐらいに触っていて、そのときSolrも調査したことがあったので、その頃からどのように変わったのか楽しみにしていきました。 以下発表内容のまとめです。 Solrとは?(ロンウィット関口さん) 全文検索ライブラリのLucene JavaAPIを使うので、開発期間の短くなっている昨今では導入の敷居が高い SolrはLuceneを使った検索サーバ実装 HTTPベースのAPIが提供されている→言語を選ばない 検索アプリが非常に楽に作成可能→時代に合っている Solrとのデータやりとり XMLで登録データを作成(CSVでも可)→HTTPでPOSTすると登録が完了 検索結果もXMLでGETする 検索アプリでは、XMLで返ってきた結果を加工してHTM

    Solr勉強会行ってきた。 - public static void main
  • Fessで作るApache Solrベースの全文検索サーバー ~ 導入編

    はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編
  • 第4回 全文検索エンジン「Lucene/Solr」の用途と良さ

    情報インフラの発展に伴い,私たちが接する情報の絶対量は増加の一途をたどっています。そのため,目的とする情報をすばやくピンポイントで入手するのが困難な状況も増えています。 一方で情報提供側にとっても,情報を確実に利用者に届けることがビジネスの成功に重要な要素となってきており,これを実現するための努力が日々続けられています。 このような状況で,高速で柔軟性が高い検索処理のニーズが高まってきており,全文検索エンジンが注目を集めています。ここでは,オープンソースの全文検索エンジンである「Lucene/Solr」を紹介します。 Lucene/Solrとは Lucene/Solrは,Apache Software Foundation(ASF)のLuceneプロジェクトで開発されているソフトです。LuceneはPure Javaで実装された全文検索エンジンで,単独では実行不可能なライブラリの形式で提供

    第4回 全文検索エンジン「Lucene/Solr」の用途と良さ