[B! JavaScript][HTML][bookmarklet] wackyのブックマーク

wacky id:wacky

JavaScriptとHTMLとbookmarkletに関するwackyのブックマーク (2)

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes
RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(it em要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。ウェブ上にあるHTMLドキュメントは Ask.jp ： "xml" Search results. のように、RSSのit em要素に相当する部分に日付が含まれていないものもあります。その中でも、大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。アプローチ大量のデータを複数のページわけて表示しているドキュメントを
wacky 2007/11/02
Google検索結果のように複数ページに分かれたHTMLドキュメントから、繰り返し部分のXPathを生成するJavaScript。ブックマークレット版あり。問題点についての考察も。

JavaScript

開発

HTML

bookmarklet

考察
リンク
最速インターフェース研究会 :: HTMLドキュメントを解析して特徴的なループを見つけるBookmarklet
- 全てのDOMノードを列挙する - ノードは次のように文字列化される。 0: /html[0]/body[0]/div 1: /html[0]/body[0]/div[0]/div 2: /html[0]/body[0]/div[0]/div[0]/ul[0]/li 3: /html[0]/body[0]/div[0]/div[0]/ul[0]/li 4: /html[0]/body[0]/div[0]/div[0]/ul[0]/li 5: /html[0]/body[0]/div[0]/div[0]/ul[0]/li 直前の階層までは添え字つき、最後のノードはタグ名のみにする。 class名、id名は排除する。各々のサイトのルールで記述されたruleよりもタグのネスト構造の方が変化に強いし機械的に抽出しやすいのではないか？出現回数でソートする。li要素2-5はループであることが分か
wacky 2007/05/30
HTMLのタグのネスト階層と出現回数を分析するJavaScript。ブックマークレット版あり。（Firefox専用）

JavaScript

HTML

bookmarklet
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

関連タグで絞り込む (0)

JavaScriptとHTMLとbookmarkletに関するwackyのブックマーク (2)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (0)

JavaScriptとHTMLとbookmarkletに関するwackyのブックマーク (2)

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

最速インターフェース研究会 :: HTMLドキュメントを解析して特徴的なループを見つけるBookmarklet

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス