PythonでスクレイピングをしようとするとBeautifulSoup4やlxmlを使った例が多くあります。今回はlxmlでスクレイピングするときのコツをいくつか紹介します。 lxmlはpip install lxmlでインストールできます。 parse()にはURLを直接渡せる urllibなどを使ってレスポンスをロードしてからlxmlに渡している例が多くありますが、parse()にURLを渡すとそのURLにアクセスして解析してくれます。 >>> import lxml.html >>> tree = lxml.html.parse('http://example.com/') base_urlオプションがURLをもとにセットされるので、相対リンクを絶対リンクに書き換えるでbase_urlを明示的に渡す必要がなくなります。 XPathをコンパイルして再利用する 同じXPathで複数回検索

