serianのブックマーク - はてなブックマーク

Gentleちゃれんじ Tips -lxmlでhtmlを処理する-
lxmlでhtmlを処理する Pythonでhtmlを取り扱う際は、「htmllib(標準モジュール)」や「Beautiful Soup」といったモジュールがあります。しかし、高速で柔軟な操作がしたい場合は、「lxml」がいいということなので、今回はlxmlでhtmlを操作する方法をメモしたいと思います。 lxmlは、Beautiful Soupより高速で、htmllibより柔軟なhtml(xml)操作を可能にするのですが、日本語資料が少ないと言うのが難点でした。最低限のことならば、ちょっと英語を読めば、何とかなりますが、ちょっと凝ったことをしようと思うと英語力がネックでつまづいてしまいました…。そこで、今回は、自分がつまづいた所を中心に紹介したいと思います。目次 htmlから情報を抽出する htmlソースを改変するまとめと補足 1. htmlから情報を抽出する htm
serian 2011/01/14
lxml/lxml.html.fromstring()

devel

python

html
リンク
Python(lxml)でhtmlを処理するまとめ - Gentleちゃれんじ Tips
Python(lxml)でhtmlを処理するまとめ Pythonにはxml/htmlを取り扱うためのlxmlという便利なサードパーティモジュールがあります。ここでは、lxmlを使ってhtmlを処理する際に、使えるメソッドなどを簡単にまとめています。 (例がHTML5を使ったものなので気をつけてください。) 初歩的なものを細かくまとめたものは、「lxmlでhtmlを処理する」にあります。また、 lxml にある全てのメソッドを紹介しているわけではありませんのでご注意を。 1. htmlの読み込み >>> dom = lxml.html.fromstring(html) >>> dom <Element html at 1967ed8> >>> dom2 = lxml.html.parse('python_tips_003.html') >>> dom2 <lxml.etree._El
serian 2011/01/14
lxml/パース、編集、書き出し

devel

python

xml

html
リンク
1

はてなブックマーク

タグ

ブックマーク / www.cafe-gentle.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / www.cafe-gentle.jp (2)

Gentleちゃれんじ Tips -lxmlでhtmlを処理する-

Python(lxml)でhtmlを処理する まとめ - Gentleちゃれんじ Tips

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Python(lxml)でhtmlを処理するまとめ - Gentleちゃれんじ Tips