Normとはノルムと読み、(Luceneや)Solrでは、検索対象文章の重要度(例/一覧表示するときなど)を決める要素のこと。 たとえばLength-Nornとは「各単語が含まれている文章が長い場合と、短い文章である場合は、後者のほうが(その単語が)、当該文章において重要である(≒その文章の特徴をあらわすものである可能性が高い)」ということを表現する情報のこと。 これ以外に、各文書や(その中の)フィールドがそれぞれ指定されうるブースト値も、この中に含まれます。 なお、よく混同される単語にNormalize(ノーマライズ/Normってこの略かと思いがち)があり、これは広くは正規化処理のことで、こと検索エンジンの世界(?)では、文章を格納するとき(後で使いやすいよう)、半角カナ→全角カナ、だったり、全角アルファベットを半角のそれに統一する処理をいいます。 。。。と調べようと思っていたら、Luc
xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename...> -h ヘルプの表示 -s 出力のエンコードはShiftJIS(デフォルト) -j 出力のエンコードはJIS -s 出力のエンコードはEUC -c PDFキャッシュ on(デフォルトはoff) -f 変換結果をファイルに出力。デフォルトでは標準出力に出力 -p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効) -n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要) -r= HTML文書のルビの変換 -r=0 ルビ削除 -r=1 () -r=2 《》青空文庫形式 -o= その他のオプション -o=0 PDFで -- ? -- の形式のページ番号を表示しない -o=1 PDFで改行を削除(
PDF から日本語テキストを抽出するための方法をいくつか探し回った。 Java から使えること 日本語が読み取れること PDF のバージョンに依存しないこと 開発環境が限定されないこと(Linux と Windows の両方で使えること) これらの条件を満たすツール等を探して、2つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。 残念。 ページ下端のページ番号の数字だけ処理されて、日本語が処理されなかった。 さらに探すと、「Apache PDFBox と FONTBox を日本語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。 ほとんどの PDF の日本語が正しく処理された。 すばらし
This document summarizes new features and changes in Lucene/Solr 3.1, including updated analyzers and tokenizers, spatial search enhancements, a new fast vector highlighter, other improvements like an N-gram field type and range facets, and mentions of related open source projects like lucene-gosen and rondhuit-uima.Read less
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く