タグ

htmlとpythonに関するsyou6162のブックマーク (2)

  • sh1.2 pyblosxom : pythonでスクレイピング

    HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・)<2nd life - rubyスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、 ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに 渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうや ら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所 下記のエントリを発見。 PythonHTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ(Blog) まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りまし た。結構昔からあったモジュール

  • sh1.2 pyblosxom : BeautifulSoup使ってみた

    BeautifulSoup と PyRSS2Gen を使うとすごい簡単にRSSに対応できるんだね。 すごいな。 で、BeautifulSoupともPyRSS2Genとも関係ないけど、RSS対応する際に知ったことのメ モ。どっちも普通にPythonドキュメントに書かれてたんだけど今まで知らなかったな。 HTMLデータを取得するサイトがbasic認証されていたら Mechanizeかなんか使わないといけないのかなと思ったんだけど、実はurllibの FancyURLopener使ったらできるんだって。知らなかった。prompt_user_passwd()を オーバーライドして、アカウントとパスワードをタプルで返したらいい、と。: import urllib class MyURLopener(urllib.FancyURLopener): def prompt_user_passwd(self

  • 1