楽天APIではレビューが取得できないので、HTMLをスクレイピングした。今まではBeautifulSoupを使ってたんだけど、lxmlがHTMLにも使えるとしったので使ってみた。lxmlはXPathが使えるんだけど、楽天のHTMLがぐちゃぐちゃすぎてかなり苦労した。 ソース from lxml import etree from StringIO import StringIO w_url = "http://review.rakuten.co.jp/rd/2_213310_12781481_0/" html = urllib2.urlopen(review_url).read().decode("euc-jp") root = etree.parse(StringIO(html),parser=etree.HTMLParser()) a =[x.strip() for x in root