[B! スクレイピング] karasawacurryのブックマーク

PythonでさくっとWebスクレイピングする (JavaScript読み込みにも対応しつつ) - Qiita

はじめに Webページから特定の要素を抽出してごにょごにょしたいときってよくありますよね。（あるECサイトのある商品の在庫や価格を5分毎にウォッチしていたいとか、文書分類のために本文を正確に抽出したいだとか、などなど...）そういう要素抽出をWebスクレイピングと呼んだりしますが、そんなときにもPythonは便利です。ところでそういう目的ぴったりの、クローラー／スクレイピング Advent Calendar 2014というのがあって、以下の記事がよくまとまっています。（ちょっと前にその存在に気づいた） http://orangain.hatena blog.com/entry/scraping-in-python まずはやってみよう前述の記事の最後にある通りPythonでスクレイピングするときにはrequestsとlxmlでだいたい事足ります。ではさっそくテレ朝ニュースの以下のペー

karasawacurry 2017/03/07

リンク

PythonとBeautiful Soupでスクレイピング - Qiita

Pythonでスクレイピングというネタはすでに世の中にもQiitaにもたくさん溢れていますが、なんとなくpyqueryが使いやすいという情報が多い気がします。個人的にはBeautiful Soupの良さも知ってもらいたいと思うのでここではBeautiful Soupを使っていきたいと思います。ちなみにこのエントリーはほとんどの部分がBeautiful Soup4のドキュメントの要約です。もっと詳しい情報が知りたい場合はドキュメントをご覧ください。英語 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 日本語 http://kondou.com/BS4/ よくある勘違い pyqueryはjQueryのようにcssセレクタを使ってHTMLを扱うことができる点がBeautiful Soupよりも使い易いという意見がありますが、それBe

karasawacurry 2017/03/01

リンク

Scrapy メモ - Qiita

Webページのスクレイピングと分析・可視化で使用したPython製WebクローラScrapyについて覚えたことについて記載する。本記事はメモ程度の内容であり、情報の正確性については保証しない。必ず公式ドキュメントを参照すること。サンプルコードサンプルコード1 import scrapy class QiitaCalendarSpider(scrapy.Spider): name = "qiita_calendar" allowed_domains = ["qiita.com"] start_urls = ["http://qiita.com/advent-calendar/2016/calendars"] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): for href in response

karasawacurry 2017/02/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

スクレイピングに関するkarasawacurryのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス