タグ

2022年10月10日のブックマーク (7件)

  • Python + Selenium + Chrome でファイル保存まわり - Qiita

    はじめに Selenium (+ Chrome) でのファイル保存関係の方法をまとめます。 基的操作: Python + Selenium で Chrome の自動操作を一通り 以下の説明の一部はChrome依存です(PDFのダウンロード、ヘッドレスモードでのダウンロードなど)。 注意事項 アクセス対象サイトの利用規約をよく読みます。 たとえばログインが絡むサイトなどは、機械的なダウンロードが禁止されていることもしばしばあります。(例:twitter) 自分だけでなく、自分の所属するグループごと大きなペナルティをらうこともあります。(例:電子ジャーナル) 著作権をよく理解・考慮する必要があります。 サーバーの負荷もよく考えます。時間を十分空けながら処理をします。 並列にダウンロードをするのは避けたほうがよいでしょう。 URLリストだけ取得しておき、あとで順にダウンロードしていくのもあり

    Python + Selenium + Chrome でファイル保存まわり - Qiita
  • PythonでSeleniumを使ってChromeを操作するための基礎(自動化) | アールエフェクト

    Pythonを利用して業務を効率化していますか?しかし業務の効率化でPythonを使うために勉強したいけれど実際にどこで利用すればいいのかわからないままPythonのコードの書き方忘れてしまったとという人もいるのでしょうか。文書ではせっかく学習したPythonを業務に活用できるようにSelenium(セレニウム)というツールを使ってChromeブラウザを制御してNTTドコモの携帯の料金を確認することができるMy docomoから利用内訳のPDFをダウンロードするための手順を解説したいと思います。 最近では業務ではWEBから請求書を含む各種伝票、データをダウンロードする機会も増えてきていますし個人でも携帯、クレジット、電子マネー、Suica、光熱費などWEBから明細をダウンロードする場所は多々あります。ぜひ身近なところからPythonを使って効率化につなげてください。 動作確認はWindo

    PythonでSeleniumを使ってChromeを操作するための基礎(自動化) | アールエフェクト
  • 図解!XPathでスクレイピングを極めろ!(Python、containsでの属性・テキストの取得など) - ビジPy

    スクレイピングにおけるXPathの使い方を初心者向けに解説した記事です。 XPathとは、基的な書き方、id・classなど様々な属性やテキストの取得方法、contains関数の使い方など要点を全て解説しています。 XPathとは XPathとは、XML形式の文書から特定の部分を指定して取得するための簡易言語です。HTMLにも使うことができます。 XPathスクレイピングにおいて、HTMLの中から特定の情報を指定し取得するのに利用されます。 HTMLは次のようにタグと言う記号で構成されており、開始タグ、終了タグで囲まれたものを要素といいます。 上記の要素はtitleタグに囲まれていますので、titile要素と言います。 またHTMLは、1つのタグが別のタグで囲われ、というように入れ子の状態で記述されます。これらは階層構造とみなすことができます。 例えば次のHTMLについては、 このよう

    図解!XPathでスクレイピングを極めろ!(Python、containsでの属性・テキストの取得など) - ビジPy
  • Seleniumクイックリファレンス

    Selenium API(逆引き) 利用目的からSelenium APIを探せます Selenium Java(ABC順) ABC順にJavaのSelenium APIを探せます Selenium Python(ABC順) ABC順にPythonのSelenium APIを探せます Selenium Ruby(ABC順) ABC順にRubyのSelenium APIを探せます Appium API(逆引き) 利用目的からAppium APIを探せます Fatal error: Uncaught Google_Service_Exception: Error calling GET https://www.googleapis.com/analytics/v3/data/ga?ids=ga%3A138132118&start-date=7daysAgo&end-date=yesterday&

  • Pythonでseleniumを使ったスクレイピングの基本

    Pythonでのスクレイピングはやってみたら楽だった スクレイピングとはWebサイトから欲しいデータだけを抜き出すことです。 以前、Javascriptスクレイピングっぽいことをやったことがあります。 そのときはHTMLを読み込んだString変数に対して正規表現を使った処理を書きまくりました。 ライブラリを使わなかったこともあり、とにかく面倒でした。 最近、Pythonの勉強を始めたのでスクレイピングをやってみたら、すごく楽だったのでやりかたを記録しておきます。 ただ、スクレイピングは使い方を誤ると、相手のサーバーに大きな負荷をかけたり、知的所有権を侵害する恐れがありますので、節度を持って使います。 Selenium、ChromeDriverをインストール Pythonスクレイピングが楽なのはライブラリとツールが揃っているからです。 とりあえず、Selenium、ChromeDriv

    Pythonでseleniumを使ったスクレイピングの基本
  • Selenium 4でheadless(ヘッドレス)に対応する

    Selenium 4では、headless(ヘッドレス)モードの指定方法が変わりました。 そのため、Selenium 3までの書き方が通用しません。 記事の内容 Seleniumにおけるheadless(ヘッドレス)モードとは?Selenium 4でheadless(ヘッドレス)モードを有効にする方法【動作確認】Selenium 4における画面のスクリーンショット撮影 それでは、上記に沿って解説していきます。 Seleniumにおけるheadless(ヘッドレス)モードとは? headless(ヘッドレス)とは、ブラウザが表示されないということです。 表示されないだけで起動はしています。 デフォルトでSeleniumを起動すると、ブラウザが実際に立ち上がります。 動きが実際に確認できるので、プラスの面は存在しています。 しかし、画面が出てほしくないケースも存在します。 バッチ処理としてS

    Selenium 4でheadless(ヘッドレス)に対応する
  • Pythonのデコレータの基礎と応用

    アドベントカレンダー「ほぼ横浜の民」の3日目の記事です。 今年は Python のデコレータについて書いています。かなり雑に説明すると、デコレータとは関数についている @staticmethod や @classmethod のことです。OSS を見ているとカスタムのデコレータもあって、これってどのように機能しているんだろう?と気になることが多くなってきたので少し勉強してみました。 この記事を読んでわかること そもそもデコレータって何? デコレータってどうやって定義するの? 引数付きのデコレータはどうやって定義する? 引数付きのデコレータはなぜネストしている? なぜ functools.wraps を使ってデコレータを定義する必要があるの? 機械学習関連の OSS ではどのように使われている? デコレータとは? デコレータは、関数をラップすることで別の関数を返却する関数です。実際にはクラス

    Pythonのデコレータの基礎と応用