こんにちは、@yoheiMuneです。 Pythonのスクレイピングで利用するBeatifulSoup4で、innerHTMLとouterHTMLを取得する実装を行ったので、ブログにも書いておきたいと思います。 目次 前提 例えば、以下のようなHTMLがあったとします。 <h1 class="title"> <p>サイトのタイトル<img src="logo.png" alt="logo"></p> </h1> それを、以下のように読み込んで、BeautifulSoupのインスタンスを作成し、h1を取得します。 from bs4 import BeautifulSoup html = """ <h1 class="title"> <p>サイトのタイトル<img src="logo.png" alt="logo"></p> </h1> """ soup = BeautifulSoup(htm