はじめに HTML の解析に便利な BeautifulSoup(Python ライブラリ)を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です.「間違えているところがある」とか「もっと良い方法がある」という場合,コメントをいただけると幸いです. ※ HTML 文書の焦点抽出(ニュースやブログからの記事抽出など)については考慮していません. 追記(2010-06-21):このお話には続き(続・BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)があり,追加の問題とその対処について説明しています. BeautifulSoup とは BeautifulSoup は,以下のサイトでダウンロードできる Python 用のライブラリです.インストールをしなくても,アーカイブの中にある BeautifulSoup.py をコピーす
前回(BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)の内容でも,ある程度は問題なく処理できていました.しかし,大量の HTML 文書を渡してみると,新たに 2 つの問題が見つかりました.それぞれの内容と今回の対処は以下のとおりです. 深すぎる再帰呼び出しによる RuntimeError 例外 <p> を改行(<br>)の代わりに使っている HTML 文書や,バグ入りの自動生成プログラムにより作成された HTML 文書などが原因だろうと思います(未確認). 再帰呼び出しを使わずに ParseTree を探索するようにしました. 不正な数値文字参照による ValueError と OverflowError ValueError が送出される例:� OverflowError が送出される例:�
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く