並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 15 件 / 15件

新着順 人気順

Xpathの検索結果1 - 15 件 / 15件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Xpathに関するエントリは15件あります。 Python資料言語 などが関連タグです。 人気エントリには 『【JavaScript】querySelector よりもパワフルに DOM からノードを取得しよう!【XPath】 - Qiita』などがあります。
  • 【JavaScript】querySelector よりもパワフルに DOM からノードを取得しよう!【XPath】 - Qiita

    const getNodesByXPath = (xpath) => { const result = document.evaluate( xpath, document, null, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE, null ); return [...Array(result.snapshotLength)].map((_, i) => result.snapshotItem(i)); }; const nodes = getNodesByXPath('//div'); nodes; // [div, div, div, ...] 3. XPath とは 3.1. 概要 XPath とは XML 文書(HTML 含む)のさまざまなノードを指し示すことができるパス文字列のことです。 XPath は XML Path Language の略

      【JavaScript】querySelector よりもパワフルに DOM からノードを取得しよう!【XPath】 - Qiita
    • 図解!XPathでスクレイピングを極めろ!(Python、containsでの属性・テキストの取得など) - ビジPy

      スクレイピングにおけるXPathの使い方を初心者向けに解説した記事です。 XPathとは、基本的な書き方、id・classなど様々な属性やテキストの取得方法、contains関数の使い方など要点を全て解説しています。 XPathとは XPathとは、XML形式の文書から特定の部分を指定して取得するための簡易言語です。HTMLにも使うことができます。 XPathはスクレイピングにおいて、HTMLの中から特定の情報を指定し取得するのに利用されます。 HTMLは次のようにタグと言う記号で構成されており、開始タグ、終了タグで囲まれたものを要素といいます。 上記の要素はtitleタグに囲まれていますので、titile要素と言います。 またHTMLは、1つのタグが別のタグで囲われ、というように入れ子の状態で記述されます。これらは階層構造とみなすことができます。 例えば次のHTMLについては、 このよう

        図解!XPathでスクレイピングを極めろ!(Python、containsでの属性・テキストの取得など) - ビジPy
      • XPathとは | Octoparse

        「XPath」とは、Webサイトの特定の部分を効率的に識別し、データを抽出するための言語を指します。この技術は、Webクローラーやスクレイピングツールにおいて中心的な役割を担い、Pythonなどのプログラミング言語やOctoparseのようなツールを使用する際に不可欠です。 XPathの使い方を理解することで、目的のデータを正確かつ迅速に取得することが可能になります。 本記事では、XPathの基本的な概念を初心者にもわかりやすく解説し、実用的な書き方や役立つ関数について詳しくご紹介します。この記事を読むことで、XPathの基礎知識を身につけ、効果的なWebデータ収集のスキルを習得できるでしょう。 Xpathとは そもそも「XPath」とは何を示すのかわからない方も多いでしょう。ここでは、XPathの基本概念や仕組みをかんたんに紹介します。 XPath (XML Path Language)

        • Twitterのプロモツイートなどの非表示のためのuBlock OriginのMyフィルター用xpath集

          TwitterのTLにプロモツイートやおすすめユーザーが挟まれたり右カラムのおすすめトレンドにプロモトレンドが表示されたりするのを防いだり、見たくないサイトのURLや見たくないワードが入ったツイートを非表示にするxpath集。 誤爆防止のため多少冗長な記述だし、もっと良い記述はあるはず。 Twitterの仕様が変わるとうまく効かない場合あり。 修正のため差し替える可能性あり。 min.t上ではxpath中のURLがt.coに短縮されて表示されてしまうので、URLを指定するxpathはmin.t上ではなく直接Twitter上で見て。 続きを読む 空っぽ果実(時間を巻き戻したい) @karappo uBlock Originのxpath。 TLに挟まれるプロモツイート非表示用(4月18日Twitterの仕様変更対応版) twitter.com##:xpath(//article/div/div

            Twitterのプロモツイートなどの非表示のためのuBlock OriginのMyフィルター用xpath集
          • 運用していたサービスにSQLインジェクションのような文字列が来たので調べてみた(XPathインジェクション)

            こんにちは。 本日、運用してたサービスのエラーログを見てたところ不審なログがあり、SQLインジェクションじゃないか?と思いまして調べた話です。 一応先に言っておくと、エラーメッセージを活用して情報を取ろうとしていて(XPATH Injection)、その事前確認のSQLのようでした。 埋め込まれようとしていた文字列 外側に関しては省きますが、埋め込もうと考えられていた文字列は以下です。 EXTRACTVALUE(8172,CONCAT(0x5c,0x716a766271,(SELECT (ELT(8172=8172,1))),0x7178717171))

              運用していたサービスにSQLインジェクションのような文字列が来たので調べてみた(XPathインジェクション)
            • SEOに使えるGoogleスプレッドシート関数とXPath - Qiita

              検索エンジンで表示されるページタイトル。(設定した内容から書き換えられて表示されることがある) 検索したユーザーが「このページが自分が求めていたページだ」と一目でわかる簡潔な内容にすることが推奨される。クリック率に大きく影響するため重要。 その他にも以下のようなものに使われる。 ブラウザタブに表示されるページ名 履歴に表示されるページ名 ブックマーク登録時のデフォルトのページ名 SNSでページがシェアされたときのページタイトル名(OGPタグを設定しない場合) 抽出するためのスプレッドシート関数 A1セルにURLが入っているとき、以下の数式でタイトルを抽出可能。

                SEOに使えるGoogleスプレッドシート関数とXPath - Qiita
              • Python、lxml、デフォルト名前空間とXPath | デバイスビジネス開拓団

                私なんぞは「その筋」の専門家でもなんでもないので、XMLと向き合わなければならないことなどさほど多くはありません。時折あるそんな機会も、とりあえずPythonでlxml使っておけばOK、てな感覚でおりました。XPath便利ですし、lxmlは速いのではないですかね。でもね、たまに困ることがあります。名前空間の指定されているXML、それもプリフィックス無し、デフォルト名前空間というやつが含まれるとき。そういうときはどうしたらよいんでしょうか? ※「トホホな疑問」投稿順Indexはこちら 最初に名前空間を使用していないXMLで、lxmlのXPath使って「便利」な例を掲げておきます。サンプルに使用したXMLは以下のようなズボラなものです。 <?xml version="1.0" encoding="UTF-8" ?> <sample> <rec> <title>t1</title> <body>

                • [Python] JSONをXPath風に操作するJSONPath

                  最近ではすっかり、XMLよりJSON形式のAPIが多いですね。 そこで、JSONでもXPATHのように、クエリ形式で要素を検索したいと思い、 jsonpath-ngというよさげなライブラリを見つけたので、それを紹介したいと思います。 スポンサーリンク インストール $ pip install --upgrade jsonpath-ng さっそく試してみる リストの下の要素を検索する例です。 from jsonpath_ng import jsonpath, parse # 実験用のJSONデータ(dict) json = { 'foo': [ {'baz': 1}, {'baz': 2} ] } # fooリスト以下のbaz要素を検索 jsonpath_expr = parse('foo[*].baz') matches = jsonpath_expr.find(json) # 結果を表示

                    [Python] JSONをXPath風に操作するJSONPath
                  • RubyでXPath 1.0 パーサを実装した - Qiita

                    この記事はドワンゴ Advent Calendar 2020 16日目の記事です。アドベントカレンダーが好きすぎて、これに加えて最終日も書かせていただきます。急拵えなので内容は薄いですが、興味があればお付き合いください。 はじめに この記事で紹介するXPath 1.0パーサは、ドワンゴ Advent Calendar 2020 最終日にて紹介予定のHTMLパーサである「gammo」向けに開発したものである。 最終日の内容はHTMLパーサに特化したものとなるため、この記事ではgammoが構築したDOMツリーをtraverseするための仕組みとして、XPath 1.0を実装した話を紹介する。 XPath 1.0は1999年に勧告されたXSLT 1.0と同時に公表されたもので、現在の最新バージョンである3.1と比較すると非常に機能が少ないシンプルな仕様となっている。 XPath 1.0を選択した

                      RubyでXPath 1.0 パーサを実装した - Qiita
                    • WebスクレイピングのためのXPath学習ノート

                      htmlのツリー構造を決める人がちょいちょい構造を変えることが分かり、子要素から親要素へ向かっての検索を行いたかった。 使用したライブラリがコメントアウトされたhtmlタグに反応するので、最初に取り除きたかった。 よって資料が少なかったXPathを選択。classやidの名前や名づけルールを変えられたら困るけど、それはまあ仕方ないかなと思っている。 XPath学習資料 自分が探した範囲では以下のURLが参考になった。 文字ベースの資料 初めて入門するのに読みやすい記事 (*2つはほぼ同一内容) 便利なXPathまとめ - ZOZO TECH BLOG クローラ作成に必須!XPATHの記法まとめ - Qiita XPathに対して「何だこれ・・・」と混乱した頭でも落ち着いて読めば理解できる平易さだった。大変助けられた。 分量はあるが良い入門 XPath | TECHSCORE(テックスコア)

                        WebスクレイピングのためのXPath学習ノート
                      • XPath

                        参考xpath cover page - W3CXPath | MDNクローラ作成に必須!XPATHの記法まとめ - QiitaXPath | TECHSCORE(テックスコア)サンプル↓ルート要素からツリー構造を指定。 /html/body/h1 ↓途中までのツリー構造の指定を省略。ツリー構造の途中で使うことも可能。 //h1 /html//a //div//a ↓属性名と値を指定。 //h1[@class='header1'] ↓属性名を指定。値は問わない。 //h1[@class] //*[@class] ↓指定する文字列が含まれる要素を取得。 //h1[contains(@class, 'head')] 第1引数:文字列が含まれているかどうか調査する対象第2引数:文字列↓タグ内テキストを検索対象にしたい場合。 //h1[contains(text(), '見出し')] ただし、この

                        • Javascript Generators, Meet XPath

                          Using Generators to Modernize a Geriatric Javascript API for $CURRENT_YEAR How do you find-and-replace text on an HTML page? <div>Hello, <span>human</span>!</div> If the text is neatly neatly isolated inside an HTML element, it’s easy; this will do: document.querySelector("span").textContent = "evolved ape"; But here’s a puzzle: how do you you change text that isn’t neatly isolated in an HTML elem

                          • XPathの記法メモ

                            数年前にWebページの一括編集の自動化などで、CSSセレクターでは複雑なノードの参照が難しかったため、XPathを使った際にまとめた記法などをメモとして残しておきます。

                              XPathの記法メモ
                            • 素のJavaScriptでXPathを使う - Qiita

                              今どきのJavaScriptは、document.querySelectorAllがあるから、jQueryがいらない。 ただ、querySelectorAll はCSSセレクタしばり。ほとんどの場合の要素指定はCSSセレクタでいけるんだけど、CSSだとテキストノードのマッチ機能がない。 ページングの「次へ」リンクなどが、CSSセレクタとして特定できなくても、「次へ」の文字列の一致で特定したいときはある。その場合はCSSセレクタではなくXPathのほうが便利。 ちょっとコツが要るが、「クラス名がc-paging__pagenavi-itemのテキストが">"というアンカーをクリックしなさい」というソースは以下のスニペットでいける。 var nodesSnapshot = document.evaluate('//a[@class="c-paging__pagenavi-item" and t

                                素のJavaScriptでXPathを使う - Qiita
                              • Chrome拡張!XPath Helperのインストールと使い方 | WATLAB -Python, 信号処理, 画像処理, AI, 工学, Web-

                                PythonでWebスクレイピングのコーディングをしていると、xpathによる情報抽出が便利であるとわかりました。しかしHTMLの構造を毎回解析するのはやっかいです。Chrome拡張機能である「XPath Helper」を使えば簡単に任意要素のxpathを取得することが可能です。 こんにちは。wat(@watlablog)です。 ここではxpathを簡単に取得するGoogle Chromeの拡張機能について、インストール方法と簡単な使い方までを習得します! xpathを使うと何ができる?これまでのおさらい 「Python/Seleniumで便利なxpath検索をする方法!」では、Pythonというプログラミング言語で、Seleniumというパッケージを使ったWebスクレイピングの基礎を学びました。 xpathというロケーションパスを使うことで、簡単にWebサイトから目的の情報を取得すること

                                  Chrome拡張!XPath Helperのインストールと使い方 | WATLAB -Python, 信号処理, 画像処理, AI, 工学, Web-
                                1

                                新着記事