日本語が化けて大変苦労したのでメモ。結論として、XML(またはHTML)を解析する前にunicode関数に通しておく、ということで良いのかな?相変わらず文字コード関連はよく分からない。 from urllib import urlopen from lxml import etree html = urlopen("http://b.hatena.ne.jp") charset = html.headers.getparam('charset') html_data = unicode(html.read(),charset) et = etree.fromstring(html_data, parser=etree.HTMLParser()) title_element = et.xpath("./head/title")[0] title = title_element.text.e
bonlifeです。誰かに教えられるほどPython詳しいわけじゃないですが、lxmlのobjectifyはやっぱり便利だよ、ということを伝えたい! だけどもっとレスポンスが速い方法があるはず。 誰か教えてw まとめ記事はこちら。(記事中のquoteはurllib2.quoteっぽい。) lxmlのobjectifyを使うとかなり使いやすいオブジェクトが生成されます。最初(objectify.parse)のレスポンスは結構遅そうですが…。 import urllib2 from lxml import objectify host = u'http://webservices.amazon.co.jp/onca/xml?Service=AWSECommerceService' id = u'&SubscriptionId=AWSのアクセスキー' ope = u'&Operation=Ite
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く