はじめに Webページから特定の要素を抽出してごにょごにょしたいときってよくありますよね。 (あるECサイトのある商品の在庫や価格を5分毎にウォッチしていたいとか、文書分類のために本文を正確に抽出したいだとか、などなど...) そういう要素抽出をWebスクレイピングと呼んだりしますが、そんなときにもPythonは便利です。 ところでそういう目的ぴったりの、クローラー/スクレイピング Advent Calendar 2014というのがあって、以下の記事がよくまとまっています。(ちょっと前にその存在に気づいた) http://orangain.hatenablog.com/entry/scraping-in-python まずはやってみよう 前述の記事の最後にある通りPythonでスクレイピングするときにはrequestsとlxmlでだいたい事足ります。 ではさっそくテレ朝ニュースの以下のペー
![PythonでさくっとWebスクレイピングする (JavaScript読み込みにも対応しつつ) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/f150c71f482ff9a3c296c16c915c600ef714b868/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9UHl0aG9uJUUzJTgxJUE3JUUzJTgxJTk1JUUzJTgxJThGJUUzJTgxJUEzJUUzJTgxJUE4V2ViJUUzJTgyJUI5JUUzJTgyJUFGJUUzJTgzJUFDJUUzJTgyJUE0JUUzJTgzJTk0JUUzJTgzJUIzJUUzJTgyJUIwJUUzJTgxJTk5JUUzJTgyJThCJTIwJTI4SmF2YVNjcmlwdCVFOCVBQSVBRCVFMyU4MSVCRiVFOCVCRSVCQyVFMyU4MSVCRiVFMyU4MSVBQiVFMyU4MiU4MiVFNSVBRiVCRSVFNSVCRiU5QyVFMyU4MSU5NyVFMyU4MSVBNCVFMyU4MSVBNCUyOSZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9YjdjODM0NmI3MWI4NTc1ZmI1ODBjYjZiMTQ0Yjc0ODM%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBiZWF0aW5hbml3YSZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZTBmMDdkZDUwYWVhYjNiZWI2ZTUxMjM2NzVlODk5Mzk%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3Db4cb70300b1dec8c96879896624fba35)