Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

Pythonでスクレイピングというネタはすでに世の中にもQiitaにもたくさん溢れていますが、なんとなくpyqueryが使いやすいという情報が多い気がします。個人的にはBeautiful Soupの良さも知ってもらいたいと思うのでここではBeautiful Soupを使っていきたいと思います。 ちなみにこのエントリーはほとんどの部分がBeautiful Soup4のドキュメントの要約です。もっと詳しい情報が知りたい場合はドキュメントをご覧ください。 英語 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 日本語 http://kondou.com/BS4/ よくある勘違い pyqueryはjQueryのようにcssセレクタを使ってHTMLを扱うことができる点がBeautiful Soupよりも使い易いという意見がありますが、それBe
前回の復習 Pythonでseleniumを試してみる(HTML要素の検証)では、selenium で web ブラウザの HTML 要素を取得し、その中に期待された値が存在するかのテストを行った。 今日はその続きからはじめようと思う。 画面遷移のテスト Web ブラウザのテストでは、画面に設置されたボタンや Link をクリックして、 期待された画面にちゃんと遷移するか確認するテストが多いのではないだろうか。 selenium がなければ、このようなテストは、長い時間をかけて一つ一つ手動で 行う必要がある。 そして、UI の仕様変更が発生するたびに 今までのテストを全てやりなおす という事件?が世界中で起こっていたんだと思う。 (仕様変更等でコードを変更したら今までテストした分もやりなおすことが多い) でも selenium を知りテストの自動化に踏み切った今、再テストのストレスから 解
スクレイピングを勉強しようと思い立って、Selenium を使ってでブラウザを操作してみたので、軽くまとめておこうと思います。 使用したもの Selenium 自動でブラウザを操作する為のライブラリ Chrome ブラウザ ブラウザに合わせたドライバーを用意する ブラウザを操作するには、各ブラウザに合わせてドライバーを用意する必要があります。 今回は Chrome を使用するので [公式サイト] (http://www.seleniumhq.org/projects/webdriver/)から ChromeDriver をダウンロードします。 Selenium をインストール pip で selenium を インストール pip install selenium webページを開いてみる ブラウザを開く webdriver.Chrome(driver_path) webページを開く dr
何年も前、SeleniumやWebDriverの話で盛り上がった記憶があります。ただ、その当時はまだRailsなどバックエンド中心の文脈でした。今、フロントエンドに軸足が移る中、ブラウザテストの状況はどうなったのでしょう? 不思議なことに、フロントエンド界隈でそれほど話題に上がって来ないですよね (私の周りだけ?)。結構大事なのに。実は皆さん、「Seleniumアレルギー」なんじゃないですか? 公式サイトに漂う ゼロ年代感(下図)。Javaへの躊躇、「めんどくさい」と聞かされ続けた過去、無意識に避けてしまうのがSeleniumです。 ただ、フロントエンドの文脈でこそ、ブラウザテストは重要度を増しています。そこで「Selenium触りたくない病」の筆者が、 四苦八苦した背景 と、2016年だからこそ 見えてきた落とし所 を書いてみたいと思います。 註: 思ったより長文になってしまいました。先
Webページのスクレイピングと分析・可視化で使用したPython製WebクローラScrapyについて覚えたことについて記載する。 本記事はメモ程度の内容であり、情報の正確性については保証しない。必ず公式ドキュメントを参照すること。 サンプルコード サンプルコード1 import scrapy class QiitaCalendarSpider(scrapy.Spider): name = "qiita_calendar" allowed_domains = ["qiita.com"] start_urls = ["http://qiita.com/advent-calendar/2016/calendars"] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): for href in response
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く