Python と Xpath を使ってウェブから情報を収集するための、プログラミング初心者向け紹介資料です。 シェアハウス内でのハッカソンのために作りました。
lxmlでhtmlを処理する Pythonでhtmlを取り扱う際は、「htmllib(標準モジュール)」や 「Beautiful Soup」 といったモジュールがあります。 しかし、高速で柔軟な操作がしたい場合は、 「lxml」がいいということなので、 今回はlxmlでhtmlを操作する方法をメモしたいと思います。 lxmlは、Beautiful Soupより高速で、htmllibより柔軟なhtml(xml)操作を可能にするのですが、 日本語資料が少ないと言うのが難点でした。最低限のことならば、ちょっと英語を読めば、 何とかなりますが、ちょっと凝ったことをしようと思うと英語力がネックでつまづいてしまいました…。 そこで、今回は、自分がつまづいた所を中心に紹介したいと思います。 目次 htmlから情報を抽出する htmlソースを改変する まとめと補足 1. htmlから情報を抽出する htm
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く