ExtractingRequestHandler の問題 ExtractingRequestHandler で PDF を Solr にポストすると、本文 (content) の冒頭部分にメタデータが追加されてしまう。 例えば この PDF だと、content の冒頭は以下のようになる。 dcterms:modified 2003-08-15T05:59:59Z meta:creation-date 2003-08-15T01:45:32Z meta:save-date 2003-08-15T05:59:59Z dc:creator ldefurio Last-Modified 2003-08-15T05:59:59Z dcterms:created 2003-08-15T01:45:32Z Author ldefurio date 2003-08-15T05:59:59Z modifi
RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。 ウェブ上にあるHTMLドキュメントは Ask.jp : "xml" Search results. のように、RSSのitem要素に相当する部分に日付が含まれていないものもあります。 その中でも、大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。 アプローチ 大量のデータを複数のページわけて表示しているドキュメントを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く