タグ

BeautifulSoupに関するdotredのブックマーク (4)

  • BeautifulSoupでパースエラーが出て困る件 – taichino.com

    先日BeautifulSoupを使おうとして挫折した訳ですが、そうは言ってもGAEではlxmlが使えない以上、GAE上でスクレイピングする場合は使うしかないです。htmlのパーサーなんて書く気にならないのであります。書く力が無いのであります。 しかし先日も書いたように使ってみると、割と頻繁にパースエラーが発生して処理できなくなります。例えば(http://mlb.mlb.com/stats/historical/player_stats.jsp)を実際にパースしてみると以下の様なエラーが発生します。 >>> import urllib >>> from BeautifulSoup import BeautifulSoup >>> source = urllib.urlopen('http://mlb.mlb.com/stats/historical/player_stats.jsp').r

  • BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記

    はじめに HTML の解析に便利な BeautifulSoup(Python ライブラリ)を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です.「間違えているところがある」とか「もっと良い方法がある」という場合,コメントをいただけると幸いです. ※ HTML 文書の焦点抽出(ニュースやブログからの記事抽出など)については考慮していません. 追記(2010-06-21):このお話には続き(続・BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)があり,追加の問題とその対処について説明しています. BeautifulSoup とは BeautifulSoup は,以下のサイトでダウンロードできる Python 用のライブラリです.インストールをしなくても,アーカイブの中にある BeautifulSoup.py をコピーす

    BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記
  • Phactory: Python: BeautifulSoupで、HTML/XMLをらくらくパージング

    BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。 ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。 これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。 ダウンロード BeautifulSoupは、Pythonの標準ライブラリではありませんので、 使用するためには以下サイトからDL&インストールする必要があります。 http://www.crummy.com/software/BeautifulSoup/ インストール方法 BeautifulSoup.pyを上記サイトからDLしてきて、 pythonのライブラリ置場である「site-packages/」に配置するだけでOKです。 その上で、 #!/usr/bin/python from BeautifulSoup

  • BeautifulSoup を使ったコード片のメモ - 銀月の符号

    昔作ったはずなんだけど、コードをなくしたらしい。なので作り直した。はてな上にメモしておけば、今度こそなくさない?(いや、ちゃんとバックアップ取れよオレ) BeautifulSoup とは? HTML, XML パーサ。メモリにツリー状のデータを構築するタイプ。標準ライブラリ xml.sax のようなイベント駆動型ではない。BeautifulSoup に近い標準ライブラリは xml.etree や xml.dom 。 サイトの URL は http://www.crummy.com/software/BeautifulSoup/ 。 テキスト抽出 BeautifulSoup のドキュメントにもあった例を関数にしたもの。 def collect_string(tag): return u''.join(tag.findAll(text=True)) もうすこし凝ったことがしたくなったら fin

    BeautifulSoup を使ったコード片のメモ - 銀月の符号
  • 1