(閉じる)

タグ :

コンピュータ・IT 117 users このエントリーをはてなブックマークに追加

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。 ウェブ上にあるHTMLドキュメントAsk.jp : "xml" Search results. のように、RSSのitem要素に相当する部分に日付が含まれて... > このページを見る

最終更新時間: 2007年11月01日23時06分
▼ブログで紹介する

みんなのブックマーク 人気(0) 新着

  • コンテンツ、本文抽出 2008/10/04
  • *programming 2008/07/14
  • 差分を元に繰り返し抽出 2008/04/30
  • : いきおいでBM 2008/01/17
  • HTMLの繰り返し構造を抽出するってすげ~ 2008/01/08
  • ブックマークレット 返し部分のXPathを生成 2007/11/09
  • 『大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成する』 2007/11/06
  • 差分を取る,って点が面白い 2007/11/02
  • Google検索結果のように複数ページに分かれたHTMLドキュメントから、繰り返し部分のXPathを生成するJavaScript。ブックマークレット版あり。問題点についての考察も。 2007/11/02
  • RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)の 2007/11/02
  • うまく動くのかな? 2007/11/02
  • faw faw
    日本語処理 2007/11/02
  • >>大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。 2007/11/02
  • 差分要素に「ad」「tag」「menu」がurlやclassやidに含まれるDOMは本文ではないと見なすとかどうか 2007/11/02

はてなブックマークはオンラインでブックマークを管理・共有できる無料サービス。自宅、職場、外出先、どこからでも同じブックマークにアクセスできます。ユーザーはみんなでブックマークを共有して効率良く情報収集しています。あなたもはてなブックマークを始めてみませんか?