delegateのブックマーク / 2023年3月9日

2023年3月9日のブックマーク (1件)

BeautifulSoupでstringとtextの挙動の明確な違い – Python | Let's Hack Tech
スクレイピングなどで、最終的に文字列を取得したい場合は、soupオブジェクトに対して”.string”や”.text” で文字列を抽出することが出来ますが、両者の明確な挙動の違いを例を挙げて紹介します。 <div> <h2>文字列取得テスト</h2> <p>BeautifulSoupはスクレイピングに欠かせないPythonのライブラリです。<br/>複雑なHTMLソースも、手軽にパースできる事が<b>最大の魅力</b>です。</p> </div> 例えば上記のようなHTMLソースがあった場合を例に見ていきます。 from bs4 import BeautifulSoup as bs4 soup = bs4(html, 'lxml') ここまでが前提のソース。 soup.p.text の場合 “.text” の方は非常に単純で、そのタグ内に含まれるすべての文字列をつなぎ合わせて返却します。
delegate 2023/03/09
beautifulsoup
リンク
- 2023年3月10日
- 2023年3月9日
- 2023年3月8日