一定期間更新がないため広告を表示しています
ミ通信(本編) 転職がかない、2006年1月より東京渋谷で新たに働く一介のITエンジニアの日記。徒然なるままに雑記などを書いていきたいと思います。 これから開発をしている検索機能で、 Solr-1.4をつかおうとおもったら、luceneもlucene-2.9-devでした。 で、Senを使って、lucene-ja.jarを使って、形態素解析を使おうと思ったらIllegalAccessErrorがでてしまったので その対応をしてみた。 ■ダウンロード lucene-ja.jarのソースを取得[ダウンロード ] lucene-ja-2.0test2.zip を取得して、解凍 ■Eclipseへインポート Eclipseさんを使うのが楽だったので、 プロジェクト:lucene-jaをJavaプロジェクトで新規作成 lucene-jaに、インポート[一般-ファイル・システム] [$ARCHIVE\
Apache Lucene Connectors Framework (LCF) is an effort undergoing incubation at The Apache Software Foundation (ASF), sponsored by the Lucene PMC. Incubation is required of all newly accepted projects until a further review indicates that the infrastructure, communications, and decision making process have stabilized in a manner consistent with other successful ASF projects. While incubation status
※2012年1月18日 追記 Tomcat 7、Solr 3.5.0で日本語検索の環境構築を行ってみました。 Debian に Tomcat 7 + Apache Solr 3.5.0 + 日本語検索対応環境を構築(lucene-gosen使用) Tomcat上でsolrを動かすことはできた模様。 このままでは日本語をうまく分割してインデックス化してくれません。 たとえば、「日本語データ」というデータを登録した場合、 日本や日本語、データというキーワードでヒットしてほしいと思いますが、 「日本語データ」と全文一致しないと、ヒットとみなしません。 そこで、N-gram解析モジュールと形態素解析モジュールを導入します。 N-gram解析モジュールの導入 https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expa
本文書の目的 ウェブ検索エンジンのフリーソフトLuceneをベースとして日本語解析機能が加えられたLucene-jaを用いて、ウェブ検索エンジンを構築する方法を解説する。 参考 Lucene-ja Luceneのクラスについてのリファレンス こちらのセットアップを参考にしてインストールすればよい。一部、Windowsに応じた記述になっているので、Unix用に以下に解説する。 0.1 Antのインストール 0.2 Senのインストール こちらも参照されたい。 簡単に書けば、ここからsen-1.2.2.1.zipをダウンロードして解凍する。 % unzip sen-1.2.2.1.zip これでsen-1.2.2.1ディレクトリができる。 その後、辞書を作成する。 % cd sen-1.2.2.1 % cd dic % ant BUILD SUCCESSFUL 0.3 Lucene-ja+Se
All Queries are not created equal We have been running a test suite of 10,000 warm-up queries and 1,000 test queries against indexes of up to 1 million full-text documents. One aspect of our results is that response time for queries varies by several orders of magnitude. For our 1 million volume index, the slowest query took over 2 minutes while the fastest query took less than one thousandth of
概要 現在表示されているサイトは旧サイトです。新サイトは http://fess.codelibs.org/ja/ です。 Fess は「5 分で簡単に構築可能な全文検索サーバー」です。Java 実行環境があればどの OS でも実行可能です。Fess は Apache ライセンスで提供され、無料 (フリーソフト) でご利用いただけます。 Seasar2 ベースで構築され、検索エンジン部分には 2 億ドキュメントもインデックス可能と言われる Solr を利用しています。 ドキュメントクロールには S2Robot を利用することで、Web やファイルシステムに対するクロールが可能になり、MS Office 系のドキュメントや zip などの圧縮ファイルも検索対象とすることができます。 特徴 5 分で簡単に構築可能な全文検索サーバー Apache ライセンスで提供 (フリーソフト) OS 非依存
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く