前回(BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)の内容でも,ある程度は問題なく処理できていました.しかし,大量の HTML 文書を渡してみると,新たに 2 つの問題が見つかりました.それぞれの内容と今回の対処は以下のとおりです. 深すぎる再帰呼び出しによる RuntimeError 例外 <p> を改行(<br>)の代わりに使っている HTML 文書や,バグ入りの自動生成プログラムにより作成された HTML 文書などが原因だろうと思います(未確認). 再帰呼び出しを使わずに ParseTree を探索するようにしました. 不正な数値文字参照による ValueError と OverflowError ValueError が送出される例:� OverflowError が送出される例:�