タグ

lxmlに関するd4-1977のブックマーク (1)

  • lxmlでHTMLページタイトル取得 - Pyro Memo

    一応動くサンプル。あんまりテストしてないので、取得できないパターンはあるかも。 覚えておきたいのはxpathの設定方法で、どうやら //head/title/text() と書くとたまにうまくタイトルが取得できない場合があるようで、そんな場合でも //title/text() という風に直接タグを呼び出したら取得できた。 import re import urllib2 from lxml import etree def get_title_from_url(url, lxml_tree=None): if lxml_tree is None: lxml_tree = get_parsetree_from_url(url) if lxml_tree is None: return None title = None title_block = lxml_tree.xpath("//ti

  • 1