タグ

XPathとスクレイピングに関するreponのブックマーク (1)

  • 100サイト以上のクローラ・スクレイパを効率的に作る方法 - Qiita

    概要 急遽100サイト以上のクローラを作ることになりました。 サイトの数だけプログラムを書いていると保守で死ぬ😱ため ソースコードを書かなくても大量のクローラ・スクレイパを作成できる方法 を探しました。 といっても、何もせずにクローリングできるわけではなく、要は サイト構成に依存する部分は別ファイルに外出しして、ソースコードは少なくしようぜ! という話です。 ハードコーディングを辞めることで、普段ソースコードを書かない人でもクローラ作成できるというメリットもあります👼 1. XPathを使う XPathとは XML Path Languageの略 XML文章の中の特定の要素や属性の位置を指定するためのルール これを使えば、サイトの構成ごとに異なる「どの要素を抽出するか」のルールのみ外部ファイルにもたせて、それを読み込むことで 処理の大部分を共通化できる😊 XPath はW3Cで規定さ

    100サイト以上のクローラ・スクレイパを効率的に作る方法 - Qiita
  • 1