タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

PythonとBeautifulSoupに関するflatbirdのブックマーク (2)

  • BeautifulSoupでスクレイピングのまとめ – taichino.com

    何度かBeautifulSoupについては書いているのですが、未だに使い方が覚えられずにイライラします。仕方が無いのでまとめて置く事にしました。BeautifulSoupはHTMLから情報を取得するだけ無く、HTMLの編集もできますが、ここではスクレイピング用途のみに絞っています。 使用するのは以下のHTMLです。 このHTMLを使って色々と情報を取得したのが以下です。覚えるべきはfindAllだけです。注意する必要があるのは、textを指定した場合にタグオブジェクトが取れずに、テキストオブジェクトが取れるので、一旦parentで親のタグ取りましょうという事と、正規表現で条件指定する場合は、re.compileで正規表現オブジェクトを渡すという事位ですか。 #!/usr/bin/python # -*- coding: utf-8 -*- import re import urllib f

  • Beautiful Soup — Beautiful Soup 4.12.0 documentation 日本語版

    Beautiful Soup¶ Beautiful Soup は、 HTMLおよびXMLファイルからデータを抽出するためのPythonライブラリです。 お気に入りのパーサー(構文解析器)と連携して、パースツリー(構文木)のナビゲート、検索、修正を行うための慣用的な方法を提供します。 これにより、プログラマーは数時間から数日分の作業を節約することがよくあります。 (訳注) 石鹸はべられない¶ この文章は Beautiful Soup 4.12.0 Documentation の日語訳です。 以前、”Beautiful Soup”を”ビューティフルソープ”と読んでしまう英語が苦手でちょっぴりHな後輩のために Beautiful Soup 4.2.0 Documentation を翻訳しました。それから10年が経ち、内容が古くなったので、2024年8月時点で最新のドキュメントをあらためて訳し

  • 1