nsakataのブックマーク / 2011年10月2日

nsakata id:nsakata

2011年10月2日のブックマーク (10件)

[Apache-SVN] Contents of /lucene/dev/trunk/solr/example/solr/conf/schema.xml
nsakata 2011/10/02
solr
リンク
[Solr] Normとは
Normとはノルムと読み、(Luceneや)Solrでは、検索対象文章の重要度(例/一覧表示するときなど)を決める要素のこと。たとえばLength-Nornとは「各単語が含まれている文章が長い場合と、短い文章である場合は、後者のほうが(その単語が)、当該文章において重要である(≒その文章の特徴をあらわすものである可能性が高い)」ということを表現する情報のこと。これ以外に、各文書や(その中の)フィールドがそれぞれ指定されうるブースト値も、この中に含まれます。なお、よく混同される単語にNormalize(ノーマライズ/Normってこの略かと思いがち)があり、これは広くは正規化処理のことで、こと検索エンジンの世界(?)では、文章を格納するとき(後で使いやすいよう)、半角カナ→全角カナ、だったり、全角アルファベットを半角のそれに統一する処理をいいます。。。。と調べようと思っていたら、Luc
nsakata 2011/10/02
solr
リンク
xdoc2txt
xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename...> -h ヘルプの表示 -s 出力のエンコードはShiftJIS(デフォルト) -j 出力のエンコードはJIS -s 出力のエンコードはEUC -c PDFキャッシュ on(デフォルトはoff) -f 変換結果をファイルに出力。デフォルトでは標準出力に出力 -p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効) -n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要) -r= HTML文書のルビの変換 -r=0 ルビ削除 -r=1 （） -r=2 《》青空文庫形式 -o= その他のオプション -o=0 PDFで -- ? -- の形式のページ番号を表示しない -o=1 PDFで改行を削除(
nsakata 2011/10/02
solr java テキスト変換
リンク
PDF から日本語を含むテキストを抽出する | Altus-Five Labs
PDF から日本語テキストを抽出するための方法をいくつか探し回った。 Java から使えること日本語が読み取れること PDF のバージョンに依存しないこと開発環境が限定されないこと（Linux と Windows の両方で使えること）これらの条件を満たすツール等を探して、２つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。残念。ページ下端のページ番号の数字だけ処理されて、日本語が処理されなかった。さらに探すと、「Apache PDFBox と FONTBox を日本語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。ほとんどの PDF の日本語が正しく処理された。すばらし
nsakata 2011/10/02
pdf

日本語

solr
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
nsakata 2011/10/02
solr
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
nsakata 2011/10/02
solr
リンク
Upload, Share, and Discover Content on SlideShare
2024 Trend Updates: What Really Works In SEO & Content MarketingSearch Engine Journal
nsakata 2011/10/02
web

webサービス

プレゼン
リンク
Lucene/Solr 3.1 プレゼン資料 | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
nsakata 2011/10/02
solr
リンク
Lucene/Solr 3.1
This document summarizes new features and changes in Lucene/Solr 3.1, including updated analyzers and tokenizers, spatial search enhancements, a new fast vector highlighter, other improvements like an N-gram field type and range facets, and mentions of related open source projects like lucene-gosen and rondhuit-uima.Read less
nsakata 2011/10/02
solr
リンク
Mime Type Detection Utility
nsakata 2011/10/02
java
リンク
- 2011年10月3日
- 2011年10月2日
- 2011年10月1日