タグ

xpathとhtmlに関するpalm3rのブックマーク (2)

  • The art of AutoPagerize nextLink XPath writing � ZeroMemory

    SITEINFOのnextLinkケーススタディ - 0x集積蔵を読んで自分が書いたのを思い出したら、これを公開したつもりで公開してませんでした… os0xさんの書かれた記事のほうが網羅的なので、あちらを読んでもらえばよいですが、兄弟要素から取得するケースでnumberでaの中の数字を利用することができるときもある、というのだけいいたいので公開しておきます。 AutoPagerizeのSITEINFOを書いていると、ナビゲージョン部分のHTMLがださくてnextLinkをXPathで表現できなさそうなことがよくあります。 が、ふたつほどコツを見つけたのでご紹介。 following-sibling, descendant-or-selfを使う ありがちなのがナビゲーションに次のページへのリンクがなくて、数字だけが並んでいて今いるページだけハイライトされてるタイプのやつです。 Behanc

  • 特定のclass属性を持った任意の要素にマッチするXPath | 3.14

    結論特定のclass属性を持った任意の要素にマッチするXPath(hogeは指定したいclass属性名) //*[contains(concat(" ",normalize-space(@class)," "), " hoge ")] 特定の要素にしたい場合は適当に div[contains(concat(" ",normalize-space(@class)," "), " hoge ")] などとする. 概要特定のclass属性を持った任意の要素にマッチするXPathというのはアドオンやUserJavaScriptスクレイピングの際にDOMノードを特定するために良く使いますが,XPathの書き方がマズイ人がたまにいます.普通に考えたらXPathはこうなります. XPath1:: //*[@class="hoge"] class属性は以下の引用部分に書かれているとおり,スタイルシート以

  • 1