[B! solr] hackedのブックマーク

Lucene/SolrをJava 7で使うときの注意（あるいはJava 6以前でもホットスポットのバグを踏む可能性あり） | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

hacked 2011/07/29

リンク

pixiv サイバーエージェント共同勉強会 solr導入記

8. Mysql の全文検索には更新時ロックがかかる MyISAM のため Replication で更新クエリーがくるとそこでロックがかかってしまう CPU のコア数でスケールできないロックがかかるため CPU が１コア分くらいしか使い切れていない R-18 など数値のある文字が重いたとえば６を検索したとき⑥や全角半角の６なども OR 検索し条件が増える揺らぎ補正のため Normalize は Off にできない MySQL のバージョンをあげることができない Tritonn が組み込まれたバージョンを使用しなければならないため Mysql5.1 などにアップグレードできなかった 9. 何かの検索文字 R-18 東方 ( はいてない OR 穿いてない OR はいてません OR 穿いてません OR ノーパン ) ( 髪 OR かみ )( ほどき OR ほどく OR ほどけ OR ほど

hacked 2011/07/25

solr

リンク

Solr のメモリ使用量を小さくする - ぼうずの日常的雑感

Solr で使われるメモリを減らす必要がある場合に僕がとりあえず考えることを挙げます．以下の内容は僕の Solr 1.3 での経験に基づいてますが，おそらく次期版の 1.4 でも同じではないかと思います．キャッシュを小さくするSolr はメモリ上に検索結果をキャッシュする機構を持っています．これは検索性能を向上するのにとても役立ちますが，メモリを食います．キャッシュは (Solrコアのホームディレクトリ)/conf/solrconfig.xml で定義され，サイズを指定することができます．Solr のキャッシュは何種類かあり，自分で用意することもできますが，たとえば元から用意されており世話になる可能性が高い filterCache は，Solr 添付の example 内の solrconfig.xml で次のように定義されています: キャッシュの容量を小さくするには，size 属性の値を

hacked 2011/01/19

solr
memory

リンク

FAQ - Solr Wiki

This is the Official Solr FAQ. There is also a SolrTerminology document that may be useful for understanding what some documentation means; as well as a Relevancy FAQ for addressing questions specific to how Relevancy Scoring works in Solr. General What is Solr? Solr is a stand alone enterprise search server which applications communicate with using XML and HTTP to index documents, or execute sear

hacked 2010/09/03

Jetty Specific Bug

solr

リンク

BasisCon2010-Japanese-Solr-revised.ppt

Solr www.rondhuit.com Apache Lucene/Solr • Apache Lucene – Java • Apache Solr – Lucene • • N-gram • • • – • • •  •  • •  • Fuzzy • Google • Google CharFilter – Reader CharStream +correctOffset(int):int CharReader input:Reader CharFilter input:CharStream correct(int):int BaseCharFilter pcmList: List<OffCorrectMap> getLastCumulativeDiff ():int addOffCorrectMap (int,int):void OffCorrectMap off:int

hacked 2010/05/12

ロンウイットさんの資料

solr
lucene

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

hacked 2010/03/17

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

hacked 2010/03/17

リンク

CJKTokenizerFactory と NGramTokenizerFactory の動作の違い - Solr, Python, MacBook Air in Shinagawa Seaside

祝 Lucene2.9.0 リリース!! 2009/9/25 に Lucene2.9 がようやく正式リリースされました。便乗して久しぶりの Solr ネタです。この記事は Lucene2.9.0 がバンドルされている 2009/09/28版の Solr をもとに書いています。 http://people.apache.org/builds/lucene/solr/nightly/solr-2009-09-28.tgz 日本語の文章をインデキシングするときによく使われるトークナイザとして CJKTokenizerFactory があります。 CJKTokenizerFactory は基本的には 2-gram (別名 bi-gram, bigram ) なので NGramTokenizerFactory で maxGramSize="2"としたときと基本的には同じように動作するのですが

hacked 2010/03/17

solr
lucene

リンク

Ride（らいど)の技術メモ　solr schema.xml (１文字の日本語検索が CJKAnalyzer では駄目だった）

CJKAnalizerでは「花」の１文字の検索を行うと、検索出来ない不具合が見つかった。その他に検索できない日本語が色々出てきたので、CJKAnalizerには身を引いてもらいます。んで、色々試したのですがどれも一長一短すぎ、使い物にならないので、 N-Gramを使用することにしました。 N-Gram を 1-gram で使用した場合、語句に関係無く文字が一致するとヒットしてしまうので、検索ワードが２文字以上の場合は 2-gram を使用する方針としました。データ上に検索キーワードが存在するのに CJKAnalizer ではヒットしない場合があるなんて、信じられない！。 solrを使用している事例は日本語のページでも見ますが、こういう事が明らかにされていないのは非常に不親切ではないでしょか？？実際solrの問い合わせパラメータを日本語で説明しているサイトも無いし、オープンソースなん

hacked 2010/03/17

solr

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

hacked 2010/03/14

php
solr

リンク

Solr勉強会に行ってきました。2010 - 不可視点

3月11日にECナビにて第2回Solr勉強会がありました。事例紹介に「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。皆さんの発表の内容とか感想はのちほど追記…twitter/#SolrJP,yats/#SolrJP スライド：Solr@twitter検索2010 solr@twitter検索2010View more presentations from penguinana. 分かりにくいスライドですが「考え方が根本的に間違っている！」「これはこうすべきだし！」「これを使うべき。」「ここはどうなってるの？」などお気づきの点ありましたらコメント欄などでお知らせください。もう少しSolrいじってみてまたブログに書いたりしてみようと思います。メモ追記予定

hacked 2010/03/12

solr

リンク

ダウンロード - 株式会社ロンウイット

無料のオンラインハンズオンセミナーを開催しています詳細・お申し込みはこちら目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス勉強会／セミナー資料海外カンファレンス参加報告セキュリティ警告アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。ダウンロード：rondhuit-ja-ner-1.0.0.zip（Apache License） livedoor ニュースコーパス概要本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い

hacked 2010/02/26

リンク

Debian に Tomcat + Apache Solrの環境を構築

※2011年11月30日　追記 Tomcat 7、Solr 3.5.0でのインストールを試してみました。 DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する以前、Apache Solr をインストールしてみましたが、その後放置してました。 Debianで全文検索サーバー「Apache Solr」を動かす http://symfoware.blog68.fc2.com/blog-entry-131.html 改めて調べてみます。 Tomcatの導入前回はSolr同梱のjettyで動作させましたが、今回はTomcatで動かしてみようと思います。 ※Tomcatの方が経験が多いので。 Javaはインストール済の前提で話を進めます。今回はJava1.6.0_16を使用しました。 Tomcatのダウンロードは Tomcat 6 Downloads

hacked 2010/02/25

リンク

SolrTomcat - Solr - Apache Software Foundation

{{{#!wiki red/solid Beginning with Solr 5.0, Solr is no longer distributed as a "war" (Web Application Archive) suitable for deployment in any Servlet Container. Solr is now distributed as a stand alone java server application, including start and stop scripts for use on Unix and MS-Windows platforms, as well as an installation script for setting up a "production" installation of Solr on *nix plat

hacked 2010/02/18

リンク

Solr 1.3と1.4の検索パフォーマンス比較 - kaisehのブログ

Top HatenarとBlogopolisでは現在、全文検索用途にApache Solr 1.3を使っていますが、去年11月にSolr 1.4がリリースされたので、近いうちに1.4に移行したいと思っています。そこで、1.3と1.4の検索パフォーマンスにどのくらい差があるのか、Top Hatenarで収集しているブログの本文データを使って、以下の条件で計測してみました。計測は、事前にSolrをウォームアップし、キャッシュが十分に効いた状態で行いました。 Solrサーバ環境 OS: CentOS 5.4 (x86_64) CPU: Phenom II X4 905e RAM: DDR2-800 9GB HDD: Seagate ST3160815AS (160GB, 7200rpm) JRE: 1.6.0_17-b04 (64bit) Tomcat: 6.0.20 Solrのキャッシュ設定

hacked 2010/02/17

リンク

Solr1.4-devとcmecab-java

cles::blog 平常心是道 blogs: cles::blog NP_cles() « VMWareでディスクを拡張する :: 正規表現で制御文字をフィルタする » 2009/06/29 Solr1.4-devとcmecab-java nlp java solr 263 0へぇ最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。 Solr 1.3で日本語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示*1している場合が多いようです。 <fieldType name="text_sen" class="solr.TextField"> <ana

hacked 2010/02/17

lucene
solr

リンク

全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

はじめまして。プロダクト&サービス事業部リーダーの久保です。今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。目次 Solrとは機能一覧実績/事例 Solrを使ったシステムの開発方法おすすめする方データ量/性能とハードウェアマルチコア構成様々な検索スケールアウト検索と更新 Solrを始めるための情報リスト全

hacked 2010/02/17

リンク

Solr勉強会行ってきた。 - public static void main

21日にECナビさんで開催されたSolr（そーら）勉強会に参加してきました。 http://atnd.org/events/937 Luceneを1、2年前ぐらいに触っていて、そのときSolrも調査したことがあったので、その頃からどのように変わったのか楽しみにしていきました。以下発表内容のまとめです。 Solrとは？（ロンウィット関口さん）全文検索ライブラリのLucene JavaのAPIを使うので、開発期間の短くなっている昨今では導入の敷居が高い SolrはLuceneを使った検索サーバ実装 HTTPベースのAPIが提供されている→言語を選ばない検索アプリが非常に楽に作成可能→時代に合っている Solrとのデータやりとり XMLで登録データを作成（CSVでも可）→HTTPでPOSTすると登録が完了検索結果もXMLでGETする検索アプリでは、XMLで返ってきた結果を加工してHTM

hacked 2010/02/16

リンク

Fessで作るApache Solrベースの全文検索サーバー　～導入編

はじめにドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント（ファイル）をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

hacked 2010/02/16

リンク

第4回　全文検索エンジン「Lucene/Solr」の用途と良さ

情報インフラの発展に伴い，私たちが接する情報の絶対量は増加の一途をたどっています。そのため，目的とする情報をすばやくピンポイントで入手するのが困難な状況も増えています。一方で情報提供側にとっても，情報を確実に利用者に届けることがビジネスの成功に重要な要素となってきており，これを実現するための努力が日々続けられています。このような状況で，高速で柔軟性が高い検索処理のニーズが高まってきており，全文検索エンジンが注目を集めています。ここでは，オープンソースの全文検索エンジンである「Lucene/Solr」を紹介します。 Lucene/Solrとは Lucene/Solrは，Apache Software Foundation（ASF）のLuceneプロジェクトで開発されているソフトです。LuceneはPure Javaで実装された全文検索エンジンで，単独では実行不可能なライブラリの形式で提供

hacked 2010/02/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

solrに関するhackedのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス