jusukeのブックマーク / 2012年7月11日

Japanese trailer online now | I Am Eleven Documentary

jusuke 2012/07/11

リンク

The page you were looking for doesn't exist.(404)

jusuke 2012/07/11

リンク

BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記

はじめに HTML の解析に便利な BeautifulSoup（Python ライブラリ）を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です．「間違えているところがある」とか「もっと良い方法がある」という場合，コメントをいただけると幸いです． ※ HTML 文書の焦点抽出（ニュースやブログからの記事抽出など）については考慮していません．追記（2010-06-21）：このお話には続き（続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記）があり，追加の問題とその対処について説明しています． BeautifulSoup とは BeautifulSoup は，以下のサイトでダウンロードできる Python 用のライブラリです．インストールをしなくても，アーカイブの中にある BeautifulSoup.py をコピーす

jusuke 2012/07/11

リンク

続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記

前回（BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記）の内容でも，ある程度は問題なく処理できていました．しかし，大量の HTML 文書を渡してみると，新たに 2 つの問題が見つかりました．それぞれの内容と今回の対処は以下のとおりです．深すぎる再帰呼び出しによる RuntimeError 例外 <p> を改行（<br>）の代わりに使っている HTML 文書や，バグ入りの自動生成プログラムにより作成された HTML 文書などが原因だろうと思います（未確認）．再帰呼び出しを使わずに ParseTree を探索するようにしました．不正な数値文字参照による ValueError と OverflowError ValueError が送出される例：&#100000000; OverflowError が送出される例：&#100000000

jusuke 2012/07/11

リンク

はてなブックマーク

タグ

2012年7月11日のブックマーク (4件)

Japanese trailer online now | I Am Eleven Documentary

The page you were looking for doesn't exist.(404)

BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記

続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第3週）

新サービスベータテスター募集のお知らせ

今週のはてなブックマーク数ランキング（2026年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2012年7月11日のブックマーク (4件)

Japanese trailer online now | I Am Eleven Documentary

The page you were looking for doesn't exist.(404)

BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記

続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第3週）

新サービス ベータテスター募集のお知らせ

今週のはてなブックマーク数ランキング（2026年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

新サービスベータテスター募集のお知らせ