[B! html][python] syou6162のブックマーク

syou6162 id:syou6162

htmlとpythonに関するsyou6162のブックマーク (2)

sh1.2 pyblosxom : pythonでスクレイピング
HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・）＜2nd life - ruby のスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうやら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所下記のエントリを発見。 Python で HTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ（Blog）まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りました。結構昔からあったモジュール
syou6162 2007/05/15
scrape

python

html
リンク
sh1.2 pyblosxom : BeautifulSoup使ってみた
BeautifulSoup と PyRSS2Gen を使うとすごい簡単にRSSに対応できるんだね。すごいな。で、BeautifulSoupともPyRSS2Genとも関係ないけど、RSS対応する際に知ったことのメモ。どっちも普通にPythonドキュメントに書かれてたんだけど今まで知らなかったな。 HTMLデータを取得するサイトがbasic認証されていたら Mechanizeかなんか使わないといけないのかなと思ったんだけど、実はurllibの FancyURLopener使ったらできるんだって。知らなかった。prompt_user_passwd()をオーバーライドして、アカウントとパスワードをタプルで返したらいい、と。: import urllib class MyURLopener(urllib.FancyURLopener): def prompt_user_passwd(self
syou6162 2007/03/02
python

html

BeautifulSoup
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx