[B! BeautifulSoup] dotredのブックマーク

dotred id:dotred

BeautifulSoupに関するdotredのブックマーク (4)

BeautifulSoupでパースエラーが出て困る件 – taichino.com
先日BeautifulSoupを使おうとして挫折した訳ですが、そうは言ってもGAEではlxmlが使えない以上、GAE上でスクレイピングする場合は使うしかないです。htmlのパーサーなんて書く気にならないのであります。書く力が無いのであります。しかし先日も書いたように使ってみると、割と頻繁にパースエラーが発生して処理できなくなります。例えば(http://mlb.mlb.com/stats/historical/player_stats.jsp)を実際にパースしてみると以下の様なエラーが発生します。 >>> import urllib >>> from BeautifulSoup import BeautifulSoup >>> source = urllib.urlopen('http://mlb.mlb.com/stats/historical/player_stats.jsp').r
dotred 2012/04/02
BeautifulSoup
リンク
BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記
はじめに HTML の解析に便利な BeautifulSoup（Python ライブラリ）を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です．「間違えているところがある」とか「もっと良い方法がある」という場合，コメントをいただけると幸いです． ※ HTML 文書の焦点抽出（ニュースやブログからの記事抽出など）については考慮していません．追記（2010-06-21）：このお話には続き（続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記）があり，追加の問題とその対処について説明しています． BeautifulSoup とは BeautifulSoup は，以下のサイトでダウンロードできる Python 用のライブラリです．インストールをしなくても，アーカイブの中にある BeautifulSoup.py をコピーす
dotred 2012/03/05
Python

BeautifulSoup

HTML
リンク
Phactory: Python: BeautifulSoupで、HTML/XMLをらくらくパージング
BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。ダウンロード BeautifulSoupは、Pythonの標準ライブラリではありませんので、使用するためには以下サイトからDL＆インストールする必要があります。 http://www.crummy.com/software/BeautifulSoup/ インストール方法 BeautifulSoup.pyを上記サイトからDLしてきて、 pythonのライブラリ置場である「site-packages/」に配置するだけでOKです。その上で、 #!/usr/bin/python from BeautifulSoup
dotred 2010/04/17
BeautifulSoup

python
リンク
BeautifulSoup を使ったコード片のメモ - 銀月の符号
昔作ったはずなんだけど、コードをなくしたらしい。なので作り直した。はてな上にメモしておけば、今度こそなくさない？（いや、ちゃんとバックアップ取れよオレ） BeautifulSoup とは？ HTML, XML パーサ。メモリにツリー状のデータを構築するタイプ。標準ライブラリ xml.sax のようなイベント駆動型ではない。BeautifulSoup に近い標準ライブラリは xml.etree や xml.dom 。サイトの URL は http://www.crummy.com/software/BeautifulSoup/ 。テキスト抽出 BeautifulSoup のドキュメントにもあった例を関数にしたもの。 def collect_string(tag): return u''.join(tag.findAll(text=True)) もうすこし凝ったことがしたくなったら fin
dotred 2009/12/24
BeautifulSoup

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx