(閉じる)

タグ :

コンピュータ・IT 22 users このエントリーをはてなブックマークに追加

 MalformedなHTMLに戦わずして勝利しテキストを抜き出す方法 - yanbe.diff - subtech

BeautifulSoupというPythonのスクレイピングライブラリ不特定多数WebサイトHTMLを相手にしていたら、壊れたHTMLパターンの多さとそのエラー対策に心が折れそうになった。 そしてDOM構造が要らずテキストのみ欲しい場合、大抵のケースはこれで間に合うことに気づいた。 > このページを見る

最終更新時間: 2010年11月28日15時10分
▼ブログで紹介する

みんなのブックマーク 人気(0) 新着

  • $ wget -q -O /dev/stdout example.com | w3m -dump -T text/html > formatted.txt 2010/11/30
  • この記事の存在を覚えておけば、いつか使うかもしれない。 2010/11/29
  • wgetいる理由があるのかなぁ。 w3m -dump example.com は? 2010/11/29
  • w3mすげー ……? 2010/11/28
  • なるほど 2010/11/28
  • w3mで見てたら何を言っているのかわからなかった。なんという罠… 2010/11/28
  • なるほど-! 2010/11/28
  • スクレイピング w3mのダンプを使う 2010/11/28
  • へー 2010/11/28

はてなブックマークはオンラインでブックマークを管理・共有できる無料サービス。自宅、職場、外出先、どこからでも同じブックマークにアクセスできます。ユーザーはみんなでブックマークを共有して効率良く情報収集しています。あなたもはてなブックマークを始めてみませんか?