タグ

ブックマーク / itdepends.hateblo.jp (1)

  • BeutifulSoupでお手軽DOMツリーのテキスト出力 - はてだBlog(仮称)

    はじめに Python、BeautifulSoupふと思い出し企画です。 Pythonスクレイピングライブラリである、BeutifulSoup4 についてオレオレ切り口でちょっとだけふれています。 BeautifulSoup4やScrapyというキーワードで言うと、スクレイピングやそもそものクローラーという話題になるのですが、ここではそれらの前段であるhtml/htmlファイル群に対する探索的データ解析の視点に寄せています。 よって、どちらかといえばデータ抽出などの目的よりは、例えば、あるCMSから別のCMSにデータを移行したい場合にhtmlマークアップ構造とドキュメントの共通構造を切り出し新たなスキーマを見出すために、ざっくりhtmlの構造をオーバービューしたいといった場合をイメージしています。 Elasticsearchなどの検索エンジンに検索対象のhtmlドキュメントのデータを抜き

    BeutifulSoupでお手軽DOMツリーのテキスト出力 - はてだBlog(仮称)
  • 1