一定期間更新がないため広告を表示しています
Solr(というかLucene)で日本語を使えるようにするには 大きくわけて、N-グラム(CJKAnalyzer)か形態素解析(JapaneseAnalyzer) を使う方法がある。 N-グラムは東京都で検索すると京都が引っかかったりと残念なので、 形態素解析を使いたいのだが、Lucene-jaでは形態素解析にsenを使わなきゃいけない。 senはバギーなので(辞書に登録する単語数が少ない場合は問題ない) Lucene-jaを改変してGoSen(senよりかはマシ)用のラッパーを作らなきゃいけない。 antを入れておきましょう(eclipseなら標準ではいってる) ダウンロード http://itadaki.svn.sourceforge.net/viewvc/itadaki/GoSen/ より落とす。SVNがない場合はしたのほうでtar.gz形式でダウンロードできる $GoSen_HOM
何はともあれ動かしてみないとどんなものかわかりません。 JavaとTomcatのインストール すでにやってあるものとします。 JavaはどこでもいいのでPATH通しておいてください。 Tomcatは/usr/local/apache-tomcat-5.5にインストールしたものとします。 solrの初期設定 solrはJavaで書かれてるので、JettyやらTomcatの上で動きます。 アーカイブは適当にftpサイトから持ってくる 超参考サイト 超参考サイト 配備 ~/apache-solr-1.3.0/dist/apache-solr-1.3.0.warを、solr.warとしてTOMCAT_HOME/webappsに配置。 TOMCAT_HOME/conf/Catalina/localhost/solr.xmlを作成 <Context docBase="solr" debug="0" c
はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全
Welcome to Solr's new Wiki page. We're currently re-building this site and you are welcome to help. Old Wiki FrontPagePublicServersSupportSolrSecuritySolrPerformanceData / SolrPerformanceFactors / SolrPerformanceProblemsUsingMailingListsMore to come hereWhat will this Wiki be for?We are still figuring out what to use this Wiki space for. Here are some thing we'll not use it for Solr Reference docu
Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™. Learn more about Solr. Solr is highly reliable, scalable and fault tolerant, providing distributed indexing, replication and load-balanced querying, automated failover and recovery, centralized configuration and more. Solr powers the search and navigation features of many of the world's largest inter
RONDHUIT REPORT Vol.6 - SOLR 1.4 NEW FEATURES Copyright © RONDHUIT Co.,Ltd. 1 2009 11 1 Solr 1.4 Solr 1.4 Lucene 2.9 Solr 1.3 Lucene 2.4-dev 2.4-dev IndexReader TokenStream N-gram FastVectorHighlighter Lucene 2.9 FastVectorHighlighter Solr 1.4 Solr 1.4 Lucene 2.9.0 2.9.1 2.9.1 2.9.0 BooleanQuery BooleanScorer 2.9.0 OSS Solr Unix OS Unix OS rsync Solr Windows Solr "r" Replication "R" Java Solr 1.4
はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを
Javaで形態素解析ライブラリはもうSenしかない状況、、だと思っていましたが、(ちょっと途中で投げ出されている感はあるものの)GoSenのほうが辞書作成もJavaだけでできる等、整備されていて良さそうです。 ただ、Senはトークナイザだけを提供しているので、Solrで使うにはLucene-jaというのを別途取ってきて、そこに入っている"アナライザ"経由で使わなくてはなりません。 つまり、(Lucene-jaの)アナライザが使うトークナイザを、SenからGoSenに変えればよい。。のですが、GoSenはSenから多少構成が変わっているため「ただjarを入れ替え」るだけでは動きません。 細かくはまた別に書こうと思いますが、hideakiさんのブログを参考に、 ・Lucene-ja(のSenTokenizer.javaを)書き換え ・無いと不便なbuild.xmlを作成 としたlucene-j
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く