[B! autoPagerize][xpath] IMAKADOのブックマーク

IMAKADO id:IMAKADO

autoPagerizeとxpathに関するIMAKADOのブックマーク (4)

jsAutoPageScraperというのを作った - snippets from shinichitomita’s journal
http://coderepos.org/share/wiki/jsAutoPageScraper 概要ブックマークレット開発などにおいて、JavaScriptでのHTMLスクレーピングを支援します。検索結果などの複数のレコードをJavaScriptの配列に変換して取得できます。ページングを利用しているサイトでは、意識することなく複数ページにまたがってレコードを取得できます。特徴クロスブラウザで動作します。スクレーピングする要素の指定にはXPathを使います。IEとかSafari2の場合はJavaScript-XPathをロードして使います。 AutoPagerizeとかLDRizeのSITEINFO形式（一部）を利用できます。使い方 1. jsAutoPageScraperをcodereposからチェックアウトし、適当なサーバにアップします svn co http://svn.
IMAKADO 2008/05/08
autoPagerize

javascript

xpath

crossBrowser

scraping

4

idea
リンク
AutoPagerize Wiki: XPath Cookbook
node()と*の違い //node() //* をそれぞれ実行してみればわかるが、node()はテキストノードなどを含めたすべてのノードを、*はNode.ELEMENT_NODEな要素だけを選択する。この違いはパフォーマンスに影響を与えるので、意識して使い分けるのが良い。なお、 * はattributeとnamespaceを基準点とした場合はそれぞれattributeとnamespaceを選択する(例://@* は全てのAttrを選択する)。詳細は仕様書でXML Path Language (XPath) - 2.3 ノードテスト省略シンタックスと非省略、そして少しの応用 // は /descendant-or-self::node()/ の省略形である。/divは/child::divの省略形で、//div[1]は//div[position()=1]を(さらに)省略した形である
IMAKADO 2008/04/28
autoPagerize

tips

xpath

snippet
リンク
AutoPagerize用のXPathをかんたんに作るためのブックマークレット AutoPagerize IDE - bits and bytes
GreasemonkeyのスクリプトでAutoPagerizeというものがあります。これはgoogleの検索結果のように何ページにもページが別れているときに、次のページを表示するためのリンクを押さなくても自動的に次のページの中身がAjaxで継ぎ足されて表示されるというものです。オモロ検索エンジン SAGOOL サグールの検索結果のページがAutoPagerizeとおなじしくみになっていて、検索結果を一番下まで見ると自動でさらに10件が表示されるようになっているので試してみてください。これが極めて快適で、慣れると次へのリンクを押す生活には戻れません。記事全体は長いのに1ページの文章量が少なくて、次のページへのリンクをやたら押さないといけないニュースサイトなどは当然のように対応されていて、クリックする必要がなくなって、ストレスなく文章に集中できるようになります。対応しているサイトも
IMAKADO 2008/03/10
autoPagerize

extension

firefox

greasemonkey

tools

xpath
リンク
AutoPagerizeのSITEINFOについての考察 « ku
AutoPagerizeのSITEINFOのpageElementについて気がついたことを書いておく。 LDRize paragraph構造とplagger EntryFullText構造 AutoPagerizeで複数のページをひとつに繋ごうとするとき、各ページの構成には大きくわけて二種類ある。ひとつめはGoogleの検索結果のように、ひとつのページに10回程度の繰り返し部分があるもの。この場合pageElementにはこの繰り返されている部分にマッチするXPathが書かれている。これはLDRizeのSITEINFOにおけるparagraphで表現されるものと一致するので、ひとつのページ内に繰り返される部分が存在し、その部分ひとつひとつにマッチするXPathをpageElementとして記述するものをLDRize paragraph構造と呼ぶことにする。もうひとつはCNETのインター
IMAKADO 2008/03/04
autoPagerize

xpath

yomimono

3
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx