RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。 ウェブ上にあるHTMLドキュメントは Ask.jp : "xml" Search results. のように、RSSのitem要素に相当する部分に日付が含まれて... > このページを見る
最終更新時間:
2007年11月01日23時06分
みんなのブックマーク 人気(0) 新着
- コンテンツ、本文抽出
- *programming
- 差分を元に繰り返し抽出
- : いきおいでBM
- HTMLの繰り返し構造を抽出するってすげ~
- ブックマークレット 返し部分のXPathを生成
- 『大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成する』
- 差分を取る,って点が面白い
- Google検索結果のように複数ページに分かれたHTMLドキュメントから、繰り返し部分のXPathを生成するJavaScript。ブックマークレット版あり。問題点についての考察も。
- RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)の
- うまく動くのかな?
- 日本語処理
- >>大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。
- 差分要素に「ad」「tag」「menu」がurlやclassやidに含まれるDOMは本文ではないと見なすとかどうか








