BeautifulSoupというPythonのスクレイピング用ライブラリで不特定多数のWebサイトのHTMLを相手にしていたら、壊れたHTMLのパターンの多さとそのエラー対策に心が折れそうになった。 そしてDOM構造が要らずテキストのみ欲しい場合、大抵のケースはこれで間に合うことに気づいた。 > このページを見る
最終更新時間:
2010年11月28日15時10分
BeautifulSoupというPythonのスクレイピング用ライブラリで不特定多数のWebサイトのHTMLを相手にしていたら、壊れたHTMLのパターンの多さとそのエラー対策に心が折れそうになった。 そしてDOM構造が要らずテキストのみ欲しい場合、大抵のケースはこれで間に合うことに気づいた。 > このページを見る