[B! Python][python][lxml] allegroのブックマーク

allegro id:allegro

Pythonとpythonとlxmlに関するallegroのブックマーク (2)

Gentleちゃれんじ Tips -lxmlでhtmlを処理する-
lxmlでhtmlを処理する Pythonでhtmlを取り扱う際は、「htmllib(標準モジュール)」や「Beautiful Soup」といったモジュールがあります。しかし、高速で柔軟な操作がしたい場合は、「lxml」がいいということなので、今回はlxmlでhtmlを操作する方法をメモしたいと思います。 lxmlは、Beautiful Soupより高速で、htmllibより柔軟なhtml(xml)操作を可能にするのですが、日本語資料が少ないと言うのが難点でした。最低限のことならば、ちょっと英語を読めば、何とかなりますが、ちょっと凝ったことをしようと思うと英語力がネックでつまづいてしまいました…。そこで、今回は、自分がつまづいた所を中心に紹介したいと思います。目次 htmlから情報を抽出する htmlソースを改変するまとめと補足 1. htmlから情報を抽出する htm
allegro 2009/09/07
xpathの便利さにしびれた。正規表現マッチングなんて20世紀の手法だった…！

python

lxml

xpath
リンク
lxmlメモ帳 - スコトプリゴニエフスク通信
以前、lingrでlxmlをdisっている人を見たとき、その人のペースに巻き込まれて、lxmlってそういうもんだと思い込んでしまいました。ただ、最近lxmlを使い始めて、なかなかちゃんとしていることが分かってきたので、メモを書き溜めて行こうと思います。というか、オフィシャルなドキュメントの写経に近いのですが。文字列からElementオブジェクトを生成するetree.fromstringを使う。 from lxml import etree el = etree.fromstring("spam") 整形式XMLでない場合etree.parseの第二引数にetree.HTMLParser()を指定。 from lxml import etree el = etree.fromstring("spam", etree.HTMParser()) 非UTF-8でエンコードされたXML(風の文字列
allegro 2009/08/19
python

XML

lxml
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

関連タグで絞り込む (0)

Pythonとpythonとlxmlに関するallegroのブックマーク (2)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (0)

Pythonとpythonとlxmlに関するallegroのブックマーク (2)

Gentleちゃれんじ Tips -lxmlでhtmlを処理する-

lxmlメモ帳 - スコトプリゴニエフスク通信

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス