はじめに Python、BeautifulSoupふと思い出し企画です。 Pythonのスクレイピングライブラリである、BeutifulSoup4 についてオレオレ切り口でちょっとだけふれています。 BeautifulSoup4やScrapyというキーワードで言うと、スクレイピングやそもそものクローラーという話題になるのですが、ここではそれらの前段であるhtml/htmlファイル群に対する探索的データ解析の視点に寄せています。 よって、どちらかといえばデータ抽出などの目的よりは、例えば、あるCMSから別のCMSにデータを移行したい場合にhtmlマークアップ構造とドキュメントの共通構造を切り出し新たなスキーマを見出すために、ざっくりhtmlの構造をオーバービューしたいといった場合をイメージしています。 Elasticsearchなどの検索エンジンに検索対象のhtmlドキュメントのデータを抜き
![BeutifulSoupでお手軽DOMツリーのテキスト出力 - はてだBlog(仮称)](https://cdn-ak-scissors.b.st-hatena.com/image/square/8ac9048f3118bb53de6df628612400d3ede964c6/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2Fazotar%2F20200130%2F20200130021120.png)