並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

python selenium webdriver find_elementsの検索結果1 - 19 件 / 19件

  • ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita

    今回やりたかったこと 目標:ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成 するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。 作ったもの概要 保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。 処理は大きく2つに分かれています。 ウォーキングイベントサイトから歩数をスクレイピング&スプシへアップロード スプシの GAS で投稿文字列作成& slack へ自動投稿 今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。 運良く(?)今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必

      ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
    • 各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ

      都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界

        各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ
      • ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記

        この記事は、以下のハローワークインターネットサービスから求人情報を自動で取得する試みを記録したものです: www.hellowork.mhlw.go.jp まずは、ソースコードと実行結果をお見せし、後ほどこの記事を書いた経緯などを話します。 ソースコード:HelloWork_Scraping_ST.py from selenium import webdriver from selenium.webdriver.support.ui import Select import time from bs4 import BeautifulSoup import re # ハローワークインターネットサービスのURL url = "https://www.hellowork.mhlw.go.jp/" # 以下からご自分で使用しているChromeのバージョンに合ったChromeDriverをダウンロ

          ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記
        • 第662回 Docker+Selenium ServerでWebブラウザ自動操作環境を作る | gihyo.jp

          今回は、Selenium ServerによるWebブラウザ自動操作環境を、Ubuntu上にDockerを使って簡単に構築する方法を紹介します。 Webブラウザの自動操作を可能にするSelenium Seleniumは、Webアプリケーションのテストを、人が操作することなく自動で行うために開発されているソフトウェアです。本来は「テストの自動化」のために開発されたソフトなのですが、Webブラウザを用いて行っている業務の自動化や、Webサイトの情報を自動収集するスクレイピングなどにも使われています。 今回、主に紹介するのは「Selenium Server」を使う方法ですが、他に「Selenium IDE」というFirefoxおよびGoogle Chrome用の拡張機能も開発・配布されています。Selenium IDEを使えば、デスクトップ環境でWebブラウザの操作を記録し、簡単に再実行させること

            第662回 Docker+Selenium ServerでWebブラウザ自動操作環境を作る | gihyo.jp
          • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

            AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

            • ゼロからはじめるPython(93) Pythonでブラウザ自動化 - 画像を丸ごとダウンロードしよう

              以前、本連載ではSeleniumを使ってブラウザを自動操縦する方法を紹介した。とても便利だがブラウザごとのドライバが必要でセットアップが面倒という側面もあった。しかし最近では自動インストールの方法が確立されて便利になった。そこで改めてブラウザの自動操縦を試してみよう。 ブラウザを自動操縦して画像をダウンロードしたところ Seleniumについて SeleniumとはWebブラウザを自動操縦するためのライブラリだ。もともとブラウザを使って自動テストを行うためのライブラリだが、今ではWeb巡回(クローリング)からデータ抽出(スクレイピング)までいろいろな自動処理に使われている。 Seleniumで可能なのは次のような処理だ。 ブラウザを自動操縦して任意のページを表示する ページ内の任意の要素を抽出する(id属性やclass属性、CSSセレクタで抽出できる) ページのスクリーンショットが取得でき

                ゼロからはじめるPython(93) Pythonでブラウザ自動化 - 画像を丸ごとダウンロードしよう
              • データ収集から機械学習まで全て行って競馬の予測をしてみた

                概要 ※ Qiitaから移行して、一部追記しました(さらに追記の項を参照) 元タイトル:データ収集からディープラーニングまで全て行って競馬の予測をしてみた 某T大学で情報系を専攻している学生です。Qiitaの記事を色々見ていたら、こんな記事を発見。 ディープラーニングさえあれば、競馬で回収率100%を超えられる この記事の回収率100%達成に関しては、購入シミュレーションした馬券の数が少ないので、他の期間でも成立するのかはわかりません。ソースコードも有料なのでどうやっているのかの詳細もわかりません。しかし、自分で競馬予測をしてみても面白そうだと思ったので、勉強するつもりで実際にやってみました。 データ収集・分析・予測のすべてを行うことになるのでかなり勉強になります。 なぜ競馬なのか? もしかしたらお金になるかもしれないという欲もありましたが、競馬は控除率が高いらしいのであまり期待はできませ

                  データ収集から機械学習まで全て行って競馬の予測をしてみた
                • WebスクレイピングでGoogleの検索結果を取得しよう!(Python)

                  Pythonで作れる代表的なプログラムとしてWebスクレイピングが挙げられます。これは主にライブラリを活用して実行するので、Pythonを覚えたての初心者でも簡単に作ることが出来ます。 今回はPythonを使い、Googleの検索結果に表示された記事のタイトル・URLをExcelに書き出すプログラムの作り方を紹介します。 Webスクレイピングとは? Webスクレイピングとは、Web上のサイトから任意の情報を自動で取得する技術のこと。出したデータを加工してファイルとして出力したり、データベース上にデータを溜めることもできます。 一般的にはホームページから大量の情報を取得したい時に使われますが、今回のように検索エンジンの結果一覧にもスクレイピングを実行することが可能です。 ブログやホームページを運営するうえで欠かせない作業が、ターゲットキーワードによる検索結果の把握です。上位表示されている競合

                    WebスクレイピングでGoogleの検索結果を取得しよう!(Python)
                  • 【Network pharmacology】PubChemを用いた漢方成分の抽出【In silico創薬】 - LabCode

                    4. ChromeDriverのインストール(Macユーザー向け) brew install chromedriver このコマンドは Mac のユーザーが selenium を使うために必要なドライバ chromedriver をインストールします。 brew はMac用のパッケージ管理ソフトです。 chromedriver は、SeleniumがGoogle Chromeを操作するために必要な「仲介役」です。 注意:Chrome本体のバージョンとドライバのバージョンを合わせる必要があります。 Windowsの場合は、公式サイトからChromeDriverをダウンロードしてパスを通す必要があります。 5. 必要なライブラリのインストール② pip install selenium pandas tqdm 一部重複していますが問題ありません(すでに入っていればスキップされます)。ここでは

                    • WEB+DB PRESS 総集編を有効活用するためのPythonスクレイピング - Qiita

                      WEB+DB PRESS という雑誌はご存知かと思います。 WEB+DB PRESSは2021年7月にvol.120を記念し、それまでの全号をダウンロードできる特典がついた総集編が刊行されました。 WEB+DB PRESS総集編[Vol.1~120] (WEB+DB PRESSプラスシリーズ) これまでの全ての記事が3000円で読めるならばと思い、私も先日Amazonでポチってしまいましたが、有効な使い方いまいち分からず放置してしまっています。 そこで最近勉強し始めたSeleniumを使って記事タイトルを取得してExcelで表にしちゃおう!というのが今回の記事内容です。 環境 Python 3.9 selenium 4.2.0 openpyxl 3.0.9 コード to_excel 関数内のExcel の出力先ディレクトリと、CHROMEDRIVERを変えれば動くと思います。 import

                        WEB+DB PRESS 総集編を有効活用するためのPythonスクレイピング - Qiita
                      • Linux の CUI 環境で Google Chromeを動かす - シナプス技術者ブログ

                        株式会社シナプス技術部ネットワーク課の杉原です。 これから、Linux の CUI 環境で Google Chromeを動かす方法についてご説明いたします。 GUI と CUI について GUI(Graphical User Interface) GUIとは、画面上に視覚的な画像や図形が用いられているインターフェイスのことです。 キーボードとマウスを使って画面上のテキストフォームやボタンなどのパーツを動かすことで、プログラムを実行します。 普段、みなさんが使っているPCやスマートフォンの画面がGUIにあたります。 CUI(Character User Interface) CUIは画面上に文字情報のみが表示されるインターフェイスのことです。 マウスを使わずキーボードでコマンドラインを入力することで操作を行います。 現在、ネットワーク装置やUNIX系サーバーはCUIでの操作が主流になってます

                          Linux の CUI 環境で Google Chromeを動かす - シナプス技術者ブログ
                        • 【Python】Google画像検索からオリジナル画像を根こそぎダウンロード - Qiita

                          はじめに 以前、Google画像検索からサムネ画像をダウンロードする方法を書きましたが、 この度、画像を詳細表示(検索結果を1度クリックした状態)すれば、元画像のリンクがページソース上に記載される、ということが判明しました。 この仕様を生かしてオリジナル画像をダウンロードしていきましょう(Googleがつよいからって負担はかけすぎないように注意しましょう。) プログラムの流れ SeleniumでGoogle画像検索 ↓ 1つ目の画像を詳細表示後、右カーソルキーを押下しまくる ↓ オリジナル画像のリンクを取得 ↓ ダウンロード 実装 Selenium, requestsあたりはインストールしてなかったらしてください。 ChromeDriverは実行パスにある設定になってるんで、適宜書き換えてください(インポート文のすぐ下)。 リファクタリングとかはしてないので汚いですが勘弁。 from se

                            【Python】Google画像検索からオリジナル画像を根こそぎダウンロード - Qiita
                          • 【python】メンドクサイを自動にさせてみた3【SlackBot編】 - Qiita

                            この記事について 最近iOSアプリで20円ばかり儲けた凄腕プログラマー(自称)がサラリーマンしている仕事の一部がめんどくさかったり、誰かの人的ミスのせいでなんか怒られたりと嫌になりそうなことを、プログラムを作ってサクッと解決★ 今回は送迎の有無をpythonを使って判別し、slackに放り投げて通知を送ることで、見落としミスがなくなるようにしました。 背景には、今時宿泊者名簿をイチイチ紙に出力して、今日の送迎の有無を確認しているのですが、その出力するシステムがツギハギだらけのもので、予期せぬ動作をすることがあります。 今回は、送迎あり・なしのラジオボタンがあるのですが、ありのボタンを押しても、その下にある備考欄が空欄だと、紙に出力されないというわけわかんない不具合がありました。 何言ってるのかわからないかと思いますが、私にもわかりません。 何をした? 1.pythonを使います。 2.se

                              【python】メンドクサイを自動にさせてみた3【SlackBot編】 - Qiita
                            • 【Python】seleniumを使ってVPS上でスクレイピングする方法【selenium】 - Qiita

                              sudo apt-get install libappindicator1 fonts-liberation sudo apt-get install xdg-utils libxss1 curl -O https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb sudo dpkg -i google-chrome-stable_current_amd64.deb seleniumはchromedriverを使うので、ダウンロードしてきて、実行ファイルと同じディレクトリに配置する。 URL:ChromeDriver - WebDriver for Chrome https://sites.google.com/a/chromium.org/chromedriver/downloads ↑上記の適するバー

                                【Python】seleniumを使ってVPS上でスクレイピングする方法【selenium】 - Qiita
                              • Webアプリケーションを自動で操作してみよう | へっぽこ実験ブログ

                                自動操作を行う場合、id、name、classなどを利用して要素を指定することになるので、属性値をメモしておきましょう。 5.同様にボタンについても属性を調べます。その結果は以下のようになります。 <input class="gNO89b" value="Google 検索" aria-label="Google 検索" name="btnK" type="submit" data-ved="0ahUKEwiC0u6iu4nlAhXwyIsBHWwTBHcQ4dUDCAo"> 属性 値 ここで調べた属性を利用して要素を特定して自動操作を行うことになります。。 また、今回はChromeでのやり方を紹介しましたが、他のブラウザでも同様のことが可能です。同じWebアプリケーションを使用していてもブラウザによって出力される内容が異なる可能性もあるので、自動操作を行うブラウザを使用して要素を調べるよ

                                  Webアプリケーションを自動で操作してみよう | へっぽこ実験ブログ
                                • レンタル掲示板 teacup.のデータを救出する

                                  レンタル掲示板のteacup.が8月1日で終了 90年代からインターネットを始めた人なら見かけたことはあると思う掲示板。 様々なサービスの黎明期にあって、残っていた老舗がサービス終了になるようです。 お知らせはわかったけど、バックアップは? 【重要なお知らせ】teacup. byGMOのサービス終了につきまして※追記あり(2022/3/25)(3月01日 14時00分) いつもteacup.をご利用いただき、誠にありがとうございます。 長年にわたりご愛顧いただきましたteacup.ですが、2022年8月1日(月)13:00をもちまして、サービスを終了させていただくこととなりました。 昔からある掲示板に書き込んだログと送信した写真を取得するツールや方法は、特に用意されていないようで、自力で行うようですね。 掲示版の記事を他のサイトに移行したい 誠に恐れ入りますが、掲示板記事のデータ移行する機

                                    レンタル掲示板 teacup.のデータを救出する
                                  • Pythonで画像自動検索&規則ファイル名で自動保存 - Qiita

                                    やろうとしてること 指定の検索ワードで、画像を検索し、規則ファイル名で自動保存 なぜこんなことをしようと思ったか 上記の学習のための素材集めのため 「ナルト」「ルフィー」それぞれの訓練用データを10枚ずつ集める必要がありました。 また、学習用データ10枚ずつだといずれにせよ少ないので、学習用データ収集の自動化は必須 書いたコード from selenium import webdriver from selenium.webdriver.common.keys import Keys import urllib.request import time # 検索ワード search_word = 'ルフィー 顔 画像' # 画像保存先のフォルダ save_dir = './luffy_faces/' # webdriverのパス webdriver_path = './chromedrive

                                      Pythonで画像自動検索&規則ファイル名で自動保存 - Qiita
                                    • Python Twitter APIを使わずにツイートを収集 2023年最新版 - Qiita

                                      ツイート収集用の各ライブラリ ほぼ使えなくなったので自力で収集する方がいいです。 事前準備 Google Colaboratory で ツイートを収集してみます。 Google Colaboratory でTwitterの画像をダウンロード の通りにGoogle Colaboratory に chrome, selenium をインストールしてください。 ツイート収集 ツイートを収集したいアカウントにアクセスして、下までスクロールします。 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait

                                        Python Twitter APIを使わずにツイートを収集 2023年最新版 - Qiita
                                      • SeleniumでTwitterをスクレイピングする【Python】

                                        話を戦略に戻しましょう。 戦略は、「ブラウザを使ってTwitterを見るように、スクレイピングを行う」です。 よって、本当にブラウザを動かす必要があります。 そのためには、Seleniumが必須です。 Seleniumなしでは、Twitterをスクレイピングはできません。 技術的には可能かもしれませんが、かなり面倒になるでしょう。 なぜ、Seleniumが必須なのか? それは、以下の理由です。 JavaScriptにより動的コンテンツを表示しているスクロールにより追加コンテンツを表示している(改ページの概念がない) 動的コンテンツは、Seleniumなしでも何とかなります。 でも、スクロール処理はSeleniumの力が必要です。 他には、Node.jsと言う手があるかもしれませんけどね。 では、Seleniumを使ってTwitterを攻略していきます。 上記であげた2点がポイントです。 J

                                          SeleniumでTwitterをスクレイピングする【Python】
                                        1