pythonでWEBサイト内のリンクを収集するクローラーを作っていて、その時に、相対パスや絶対パスがあるので、統一しないと色々と面倒になる。そこで、、関数を作ろうかなと思っていたんだけど、lxmlモジュールで簡単にできることが分かった。 ということで、WEBサイト内のパスを相対パス⇒絶対パスに変更する方法。 import urllib2 import lxml.html html = urllib2.urlopen("http://www/autoproject.nagoya/index.php").read() dom = lxml.html.fromstring(html) dom.make_links_absolute("http://www/autoproject.nagoya") urlList = dom.xpath("//@href") このlxmlモジュールやxpathの使
![python スクレイピング時に相対パスを絶対パスにする : プログラマー社長の「日々発見」](https://cdn-ak-scissors.b.st-hatena.com/image/square/da78a05937633f7a2b4b2219826151c370cd607b/height=288;version=1;width=512/https%3A%2F%2Fparts.blog.livedoor.jp%2Fimg%2Fusr%2Fcmn%2Fogp_image%2Flivedoor.png)