タグ

ブックマーク / qiita.com/memakura (2)

  • Python + Selenium + Chrome でファイル保存まわり - Qiita

    はじめに Selenium (+ Chrome) でのファイル保存関係の方法をまとめます。 基的操作: Python + Selenium で Chrome の自動操作を一通り 以下の説明の一部はChrome依存です(PDFのダウンロード、ヘッドレスモードでのダウンロードなど)。 注意事項 アクセス対象サイトの利用規約をよく読みます。 たとえばログインが絡むサイトなどは、機械的なダウンロードが禁止されていることもしばしばあります。(例:twitter) 自分だけでなく、自分の所属するグループごと大きなペナルティをらうこともあります。(例:電子ジャーナル) 著作権をよく理解・考慮する必要があります。 サーバーの負荷もよく考えます。時間を十分空けながら処理をします。 並列にダウンロードをするのは避けたほうがよいでしょう。 URLリストだけ取得しておき、あとで順にダウンロードしていくのもあり

    Python + Selenium + Chrome でファイル保存まわり - Qiita
  • Python + Selenium で Chrome の自動操作を一通り(ログイン、ダウンロード、他)

    はじめに Python + Selenium + Chrome で、要素の取得、クリックなどの UI系の操作、待機、ページ全体のスクリーンショットなど、一通り試してみます。 PhantomJS はもう更新されないということなので、ブラウザは Chrome にします。 この記事には、Selenium の API に関する情報と Chrome に特化した情報がありますが、前者の Selenium の使い方に関する情報は Firefox など別のブラウザでも使えます。 注意事項 ウェブの自動テストやスクレイピングで使われる技術です。特にスクレイピングでは、著作権の問題や、サーバー側の負荷、各種規約(会員としてログインする場合の会員規約等)やマナーなどを考慮する必要があります。 たとえば、Twitter など利用規約で明示的にスクレイピングが禁止されていることや、robot.txt などでクローリ

    Python + Selenium で Chrome の自動操作を一通り(ログイン、ダウンロード、他)
  • 1