Code Archive Skip to content Google About Google Privacy Terms
全文検索エンジンLuceneのメモです。((φo(´・ω・`*) バージョンはこの前リリースされたばかりの2.4を使います。 2.4では、Hitsクラスなどが非推奨になりました。Luceneのマイルストーンとしては、次は2.9。そして3.0になります。3.0の時点で現在非推奨となっているメソッドは全て削除されてしまいます。ですので、今回は非推奨のメソッドやクラスは使わないようにしました。 CJKAnalyzerが検索の取りこぼしをするのでまずはAnalyzerを作ります。 package at.orz.tools; import java.io.Reader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.
Lucene 3.0 から,org.apache.lucene.analysis.Token が使えなくなりそうです.2.9 ではすでに deprecated になっています.たとえば独自の Tokenizer を作っていたような人は影響出ますね.つまりおれ.Token にあった term や offset などのプロパティ(っぽいもの)は,それぞれが "TermAttribute extends Attribute" や "OffsetAttribute extends Attribute" という感じで,「属性」として別のクラスで定義されています.2.4 の Token から取得できるこうした属性値は,新しい 2.9 では org.apache.lucene.analysis.tokenattributes パッケージに Attribute のサブクラスとしてまとめられています.とりあ
環境:sen 1.2.2.1 IndexOutOfBoundsExceptionって明らかにバグやんけ。 エラーメッセージ java.lang.RuntimeException: java.lang.IndexOutOfBoundsException at net.java.sen.Dictionary.getPosInfo(Dictionary.java:149) at net.java.sen.Viterbi.analyze(Viterbi.java:134) at net.java.sen.StringTagger.analyze(StringTagger.java:180) at net.java.sen.StreamTagger.hasNext(StreamTagger.java:109) at org.apache.lucene.analysis.ja.sen.SenToken
xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename...> -h ヘルプの表示 -s 出力のエンコードはShiftJIS(デフォルト) -j 出力のエンコードはJIS -s 出力のエンコードはEUC -c PDFキャッシュ on(デフォルトはoff) -f 変換結果をファイルに出力。デフォルトでは標準出力に出力 -p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効) -n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要) -r= HTML文書のルビの変換 -r=0 ルビ削除 -r=1 () -r=2 《》青空文庫形式 -o= その他のオプション -o=0 PDFで -- ? -- の形式のページ番号を表示しない -o=1 PDFで改行を削除(
オープンソースの全文検索システムの速度性能比較 早坂 良太 林 貴宏 電気通信大学 尾内 理紀夫 1. はじめに 3. 実験 近年,日本語を扱うことができるオープンソース の全文検索システムの開発が盛んになっている.そ れらのシステムを使用することで,デスクトップ検 索などの個人用途から大規模な検索エンジンまで, 様々な要求を満たすことが可能となる.いくつかの 全文検索システムの中から自分の求めるシステムを 選択する場合,速度性能は重要な指針となりうるが, どのシステムが高速であるかは実際に動作させてみ なくては明らかではない. 本 稿 で は Namazu(*1) , Lucene(*2) , Senna(*3) , Estraier(*4),Hyper Estraier(*5)の 5 つのオープンソース の全文検索システムについてインデクシング速度・ 検索速度を比較した結果
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く