タグ

autoPagerizeとxpathに関するIMAKADOのブックマーク (4)

  • jsAutoPageScraperというのを作った - snippets from shinichitomita’s journal

    http://coderepos.org/share/wiki/jsAutoPageScraper 概要 ブックマークレット開発などにおいて、JavaScriptでのHTMLスクレーピングを支援します。検索結果などの複数のレコードをJavaScriptの配列に変換して取得できます。ページングを利用しているサイトでは、意識することなく複数ページにまたがってレコードを取得できます。 特徴 クロスブラウザで動作します。 スクレーピングする要素の指定にはXPathを使います。IEとかSafari2の場合はJavaScript-XPathをロードして使います。 AutoPagerizeとかLDRizeのSITEINFO形式(一部)を利用できます。 使い方 1. jsAutoPageScraperをcodereposからチェックアウトし、適当なサーバにアップします svn co http://svn.

    jsAutoPageScraperというのを作った - snippets from shinichitomita’s journal
  • AutoPagerize Wiki: XPath Cookbook

    node()と*の違い //node() //* をそれぞれ実行してみればわかるが、node()はテキストノードなどを含めたすべてのノードを、*はNode.ELEMENT_NODEな要素だけを選択する。この違いはパフォーマンスに影響を与えるので、意識して使い分けるのが良い。 なお、 * はattributeとnamespaceを基準点とした場合はそれぞれattributeとnamespaceを選択する(例://@* は全てのAttrを選択する)。 詳細は仕様書でXML Path Language (XPath) - 2.3 ノードテスト 省略シンタックスと非省略、そして少しの応用 // は /descendant-or-self::node()/ の省略形である。/divは/child::divの省略形で、//div[1]は//div[position()=1]を(さらに)省略した形である

  • AutoPagerize用のXPathをかんたんに作るためのブックマークレット AutoPagerize IDE - bits and bytes

    GreasemonkeyのスクリプトでAutoPagerizeというものがあります。これはgoogleの検索結果のように何ページにもページが別れているときに、次のページを表示するためのリンクを押さなくても自動的に次のページの中身がAjaxで継ぎ足されて表示されるというものです。 オモロ 検索エンジン SAGOOL サグール の検索結果のページがAutoPagerizeとおなじしくみになっていて、検索結果を一番下まで見ると自動でさらに10件が表示されるようになっているので試してみてください。 これが極めて快適で、慣れると次へのリンクを押す生活には戻れません。記事全体は長いのに1ページの文章量が少なくて、次のページへのリンクをやたら押さないといけないニュースサイトなどは当然のように対応されていて、クリックする必要がなくなって、ストレスなく文章に集中できるようになります。対応しているサイトも

  • AutoPagerizeのSITEINFOについての考察 « ku

    AutoPagerizeのSITEINFOのpageElementについて気がついたことを書いておく。 LDRize paragraph構造とplagger EntryFullText構造 AutoPagerizeで複数のページをひとつに繋ごうとするとき、各ページの構成には大きくわけて二種類ある。 ひとつめはGoogleの検索結果のように、ひとつのページに10回程度の繰り返し部分があるもの。この場合pageElementにはこの繰り返されている部分にマッチするXPathが書かれている。これはLDRizeのSITEINFOにおけるparagraphで表現されるものと一致するので、ひとつのページ内に繰り返される部分が存在し、その部分ひとつひとつにマッチするXPathをpageElementとして記述するものをLDRize paragraph構造と呼ぶことにする。 もうひとつはCNETのインター

  • 1