Scrapingの人気記事 102件 - はてなブックマーク

1 - 40 件 / 102件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Scrapingの検索結果1 - 40 件 / 102件

Scrapingに関するエントリは102件あります。スクレイピング、 AI、 scraping などが関連タグです。人気エントリには『browser-use やばいです - Qiita』などがあります。

browser-use やばいです - Qiita
- 765 users
- qiita.com
- テクノロジー
- 2024/12/31
はじめに語彙力なくてすみません、 browser-use は、「AI エージェントがウェブブラウザを操作できるようにする」ためのライブラリです。プロンプトで与えられた指示どおりに動き、ほかの技術と比較しても精度が抜群に高いです。早速試してみます。実践複数のECサイトから特定の商品価格を取得することを目標とする。 Python は 3.11 以上が必要です。
- AI
- あとで読む
- python
- browser
- LLM
- qiita
- プログラミング
- ブラウザ
- ライブラリ
- scraping
【🚨無職発生注意報🚨】ヒトはこうして仕事を奪われる~Browser Use Tutorial~ - Qiita
- 604 users
- qiita.com/Nicola_GenAI
- テクノロジー
- 2025/01/10
はじめに 2025年はAIエージェントの年です。注目されているAIエージェントの一つが『AIが自動で自分のPC画面を操作』するBrowser Useというツールです。 Browser Useの面白さ Browser Useを使うと、AIが自動で自身のPC画面を操作することであらかじめ決めた目的を達成をしてくれます。簡単な指示を出すだけで、自動でAIが色々操作してくれるのはキャッチーで衝撃的ですよね。例えば下記のように完全自動でAIが記事を検索して記事の情報を取得してくれます。簡単な指示でAIが自分で考えて画面操作をしてくれるのは近未来感ありますよね。しかし、現場でAIを使いこなすには「AIがすごい」のレベルではまだ足りません。実際に触ってみて何ができるのか？逆に何が苦手なのか？という肌感覚を持つことが非常に重要です。そこで本記事は、その肌感覚を養うために実際にBrowser U
- AI
- あとで読む
- browser
- python
- 仕事
- ブラウザ
- Qiita
- ChatGPT
- スクレイピング
- プログラミング
【令和最新版】令和のWebスクレイピング(クロール)【ベストプラクティス】
- 542 users
- zenn.dev/fp16
- テクノロジー
- 2024/07/31
こんにちは、株式会社FP16で結構コードを書いている二宮です。最近Webスクレイピングのコードを色々な方法で書いているので、そこで得た知見をここに残しておこうと思います。ほぼ毎日なにかのWebスクレイピングコードを書いています。 Webスクレイピング手段 Webスクレイピングには色々な方法があります。私が最近主に使っているのはこの5つの手段です。 cheerioでHTMLを解析 Playwrightなどで要素指定でデータを取得する APIを見つけて叩く（バックエンドとの通信を再現してデータを取得） LLMでサイト構造を解析してデータを取得する Next.jsからのレスポンスに含まれているデータを解析して取得するこれが令和のWebスクレイピングのベストプラクティスだと思っています。これらの方法を、目標に合わせて使い分けています。使い分け方 CheerioでHTML解析 JavaS
- スクレイピング
- あとで読む
- web
- API
- html
- プログラミング
- scraping
- Playwright
- 開発
- js
Twitter障害はスクレイピングではなく“自己DDoS”が原因？
- 506 users
- www.itmedia.co.jp
- テクノロジー
- 2023/07/02
Twitterのオーナー、イーロン・マスク氏は7月1日、Twitterでの“サービスの低下”の原因を「数百の組織がTwitterのデータを極度なレベルでスクレイピングしている」ことだとツイートしたが、原因は別のところにあるようだと、フリーランスのWeb開発者、シェルドン・チャン氏がMastodonの投稿で指摘した。この“サービスの低下”で、多数のユーザーが投稿を読めなくなっている。マスク氏は2日、「極端なレベルのデータスクレイピングとシステム操作に対処するため」にユーザーが読める投稿数に制限を加えたとツイートした。だがチャン氏は、異常なトラフィックの原因として、TwitterのWebアプリのバグにより、無限ループ状態でTwitterにリクエストが送信されていることを発見したと動画を添えて説明した。この動画では毎分数百件のリクエストが送信されていることが確認できる。左の動画は、レートが
- 障害
- twitter
- トラブル
- あとで読む
- SNS
- web
- セキュリティ
- api
- trouble
- ネット

無料Webクローラー「EasySpider」　プログラミングスキル不要、マウスクリックだけで操作可能
- 506 users
- www.itmedia.co.jp
- テクノロジー
- 2023/07/12
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。このシステムは、マウス操作のGUI（Graphical User Interface）を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設
GitHub に漏れ出た内部コードを探す ~ 上場企業 3900社編 ~ - ぶるーたるごぶりん
- 411 users
- brutalgoblin.hatenablog.jp
- テクノロジー
- 2023/04/05
全１回、このシリーズは今回で最後です！ TL;DR 上場企業 3900 社程に対して、すごく大雑把な「内部コード等の漏洩調査」を GitHub 上で行った結果としては、重要度の高いものから低いものまで 10社ほどで漏洩が確認された重要度の高いものとして、社外秘っぽそうなスプレッドシート、社員のハッシュ化パスワード(BCrypt)、 AWS Credential 等「大雑把な」調査を行ったが、より精度の高い方法等について記事内にて触れていく脅威インテルとか DLP みたいなエリアとかも、外部企業とかに頼るだけじゃなく「自分たちでも」頑張ってみるのがいいんだと思います GitHub Code Search ... すげえぜ！ Google Dorks ならぬ、 GitHub Dorks + GitHub Code Search でまだまだいろいろできるはず。はじめにチャオ！今回は
- github
- security
- セキュリティ
- あとで読む
- search
- Git
- 企業
- API
- CSIRT
- osint
Python と Playwright でブラウザを自動操作させるコードを自動生成したよ - Qiita
- 397 users
- qiita.com/mainy
- テクノロジー
- 2021/02/14
Playwright が昨年１年間で大幅パワーアップしていたので、使い方を確認したときの記録のまとめです。ブラウザを自動操作できるということは、簡単なスクレイピングやブラウザ側のテスト自動化が簡単にできるようになります。特に、Python での解説がまだまだ少なかったので、自分の学習を含めてまとめました。今回は入門編ということで全体像をつかみつつ使用方法の流れを確認していただければありがたいです。 Selenium や Puppeteer を使っている方も、一度試す価値ありと思っています。選定した理由ブラウザのテストを Python で自動化したかったんです。私なりの要件がありまして、非常にわがままな要件でしたが余裕ですべてクリアしました。 Python で書けること。社内で Python を使える方が多いので。pytest と連携してくれるとなおうれしい。 Docker コン
はてなアンテナは20周年を迎えました - はてラボ開発者ブログ
- 363 users
- labo.hatenastaff.com
- テクノロジー
- 2022/05/31
2022/05/28（土）は、はてなアンテナのサービス開始20周年記念日でした。 2002/05/28 に、有限会社はてな（当時）は、創業サービスである人力検索はてなに続くサービスとしてはてなアンテナをリリースしました。普段チェックしているホームページのアドレスを登録することで、サービスが自動的に巡回チェックしてくれるという機能は、ユーザが自分で巡回プログラムを配置しなければならなかった難しさを肩代わりするものとして人気を博し、多くの方々に利用いただきました。サービス開始以来20年、個人ホームページの隆盛からブログや RSS およびフィードリーダーの勃興、ソーシャルネットワークへと個人や組織の発信・交流の場が変化する中、変わらぬ価値を提供するものとして、はてなアンテナはウェブを見つめ続けています。最近大きな機能追加をしていないはてなアンテナですが、近年では常時HTTPS化インフラ
絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net
- 343 users
- blog.potproject.net
- テクノロジー
- 2023/05/26
巷で話題になっているこの話題、画像をスクレイピングやダウンロードされたくないということで騒がれています。その話に関しては色々な意見があると思ってますがここでは置いておくとして・・・技術的にやるとしたら実際どれくらい対策できるの？ということが気になったので、自分の知識で出来る限り対策したものを作ってみることにしました。最初に賢い方はわかると思いますが、タイトルは釣りです。絶対に画像をダウンロード&スクレイピングさせないページは存在しません。ソフトウェアにおいて絶対と言う言葉はまず存在しないのです。ブラウザで表示している以上、仕組みさえわかれば技術的には可能です。そのため、「元画像のダウンロードとスクレイピングを非常に困難にしたWebページを本気で作ってみた」が実際のタイトルかなとなります。とはいえ、この仕組みであれば大多数の人は機械的にスクレイピングすることを諦めるレベルの作
ハローワークの求人情報をスクレイピング（Python + Selenium + BeautifulSoup） - ai_makerの日記
- 335 users
- ai-maker.hatenablog.com
- テクノロジー
- 2020/11/12
この記事は、以下のハローワークインターネットサービスから求人情報を自動で取得する試みを記録したものです: www.hellowork.mhlw.go.jp まずは、ソースコードと実行結果をお見せし、後ほどこの記事を書いた経緯などを話します。ソースコード：HelloWork_Scraping_ST.py from selenium import webdriver from selenium.webdriver.support.ui import Select import time from bs4 import BeautifulSoup import re # ハローワークインターネットサービスのURL url = "https://www.hellowork.mhlw.go.jp/" # 以下からご自分で使用しているChromeのバージョンに合ったChromeDriverをダウンロ
- スクレイピング
- python
- あとで読む
- scraping
- プログラミング
- Selenium
- AI
- programming
- tech
- 情報
Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも？ - Qiita
- 321 users
- qiita.com/windows222
- テクノロジー
- 2023/05/12
Google Bardが、日本からも利用できる様になりましたが、ChatGPTとの大きな違いがありました。それは、ユーザが渡したURLにBardがアクセスができることです。 ChatGPTでは基本的にそういったことはできず、やれている様に見えても違った情報を返してしまっていました。例えば、以下ページのURLを渡して要約してもらうと、返ってくるのは以下の様な返答になってしまいます。アクセス先のページ ChatGPTからの返答なんだか、違うページを読み込んでいそうです・・・完全に間違っています。 -- それに対し、Google Bardは正しくリンク先の記事を読み取って要約をしてくれました。本当にリクエスト先のURLにアクセスをしているのか不安だったので、試しに先頭50文字出してといったらちゃんと出してくれましたもしかしてスクレイピングができてしまうのか？と期待して、以下の様なリク
- AI
- あとで読む
- Bard
- ChatGPT
- google
- scraping
- 人工知能
- 機械学習
非エンジニアの私が、プログラミングなしでWebスクレイピングした方法を伝えたい
- 313 users
- coopel.ai
- テクノロジー
- 2025/07/14
非エンジニアの私が、プログラミングなしでWebスクレイピングした方法を伝えたいはじめにきっかけは、毎日の退屈な「コピペ作業」週末になると毎週のように雪山に行く「Coopel」マーケティング担当です。シーズン中は週末が近くなると、仕事中も今雪降ってるのかなーと気になって仕方ありません。私はこれまで、毎日気象庁のサイトを巡回して、積雪量をスプシに記録していました。1週間の積雪量が多かった地域のスキー場を目的地に選んで行くようにしていました。数十か所以上もある計測地点の、過去24時間の積雪量のコピペは骨の折れる作業で、「この時間がもっと他のことに使えたら…」Coopelのマーケティングの仕事にもっと時間が使えるのに、と何度思ったことか分かりません。「自動化・効率化」という言葉が頭をよぎるたびに、「でも、プログラミングなんてできないし、エンジニアに頼む予算もない」と、すぐにかき消していま
- AI
- あとで読む
- スクレイピング
- エンジニア
- web
- Claude
- プログラミング
- scraping
- IT
- google
生成AIの「URLを読む処理」について考えてみる。 - フジイユウジ::ドットネット
- 310 users
- fujii-yuji.net
- テクノロジー
- 2025/04/28
ここ最近、生成AIに要約などのURLを指定した参照処理ができない事が増えたので、それについての雑記です。 (雑記なので、専門的な調査や論考ではありません。もし、間違ってるところがあったら指摘は歓迎です。修正しますので優しく教えてください。) なお、本記事は心を込めて物理キーボードを叩いて書いた人間の手作りです(一部データ集計などAIに手伝ってもらってるはいるけど)ので、どうぞ安心して最後までお読みください。AIに書いてもらえなかったオチがあります。下の画像は ChatGPT に NHKのニュースにアクセスしてもらおうとして「robots.txtで禁止されている」という理由で断られてるところ。生成AI系から記事へのアクセスができなくなっている。どうも最近は robots.txtで生成AIからのアクセスをブロックしてるメディアが増えているみたい。 robots.txtはクローラー(ロボット
Google『reCAPTCHA』を突破！『2Captcha』でブラウザ操作の完全自動化に挑む - Qiita
- 289 users
- qiita.com/derodero24
- テクノロジー
- 2020/11/07
目次はじめに 2Captchaとは 2Captchaの使用準備 Python+Selenium+2Captchaで『reCAPTCHAv2』を突破さいごに参考はじめにスクレイピングやブラウザ操作の自動化タスクにおける一番の難所は各種キャプチャの突破だと思います。そもそもキャプチャ機能はロボット操作されないために設置するものなので，それを突破しようとする時点でどうなのという気はしますが，それでもなんとかしたいと思うことがあります。そんなときの解決方法として「2Captcha」というサービスがあります。最近このサービスを知り利用してみたところ，あまりに簡単にキャプチャ突破できたので，ここで紹介しようと思います。 ※ ご利用は自己責任でお願いします。くれぐれも悪用しないように。 2Captchaとはロシアの会社が提供するキャプチャ機能を突破するためのサービスです。 2Captcha
- reCAPTCHA
- あとで読む
- Selenium
- API
- ブラウザ
- サービス
- google
- qiita
- security
- webサービス
オンラインドキュメントと日本語全文検索
- 281 users
- voluntas.medium.com
- テクノロジー
- 2022/08/18
自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日本語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。ただ、なんとかして日本語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。まとめ日本語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検
- Sphinx
- Meilisearch
- あとで読む
- 検索
- ドキュメント
- 日本語
- search
- 全文検索
- github
- js
Twitter、ログインしないと何も表示できない状態に　「一時的な緊急措置」とマスク氏
- 263 users
- www.itmedia.co.jp
- テクノロジー
- 2023/07/01
6月30日深夜ごろ（日本時間）から、アカウントにログインせずにTwitterにアクセスしようとすると、コンテンツが表示されなくなっている。Webアプリだけでなく、モバイルアプリでも同様だ。以前は一般公開されたツイートが表示できていたが、現在はTwitterにログインあるいは新規にアカウントを登録するよう求める画面にリダイレクトされる。
- SNS
- twitter
- あとで読む
- ネット
- インターネット
- ビジネス
- trouble
- データ
- web
無償のPower Automate DesktopでWeb情報収集の自動化を試みる
- 254 users
- news.mynavi.jp
- テクノロジー
- 2025/01/22
日々のニュースや知りたい情報をWebやメール、SNSから入手することが当たり前になった昨今だが、欲しい情報を能動的に収集することも自動化してみたいそう思った。RSSツールやWeb収集ツールは高速でSNSをサポートするものもある。しかしWebサイトに必ずしもRSSフィードを設置しているわけではないので能動的にPythonなどでWebを解析するスクレイピング技術があるがWebごとに解析する仕様では作成するのはなかなか大変だ。無償のPower Automate Desktopを使ってみる Windows 11の最新版を入手するためにノートPCを入手したが、デフォルトで搭載されていたPower Automate Desktopでは「ブラウザー自動化」もフローに搭載されている。これを試してみよう。なお、スクレイピングやツールによる過度なアクセスはWebサーバーへの負担がかかるため禁止しているサイト
AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog
- 254 users
- piyolog.hatenadiary.jp
- テクノロジー
- 2022/05/26
2022年5月24日（米国時間）、SANS ISCのフォーラムでPython向けライブラリの1つ（その後PHP向けライブラリでも判明）が第三者により不正なコードを含むアップデートが行われていたとして注意を呼び掛ける投稿が行われました。その後この行為に関わっていたとして実行者とみられる人物が顛末を公開しました。ここでは関連する情報をまとめます。改ざんされた2つのライブラリ今回影響が確認されたのPython Package Index（Pypi.org）で公開されている「ctx」、Packagist（Packagist.org）で公開されている「PHPass」の2つ。影響を受けたライブラリインストール実績改ざんされたとみられる期間概要 ctx 約75万回 2022年5月14日～5月24日頃辞書(dict型オブジェクト)を操作するユーティリティを提供するPython向けのパッケージ
- security
- aws
- セキュリティ
- あとで読む
- python
- GitHub
- ライブラリ
- 認証
- amazon
- Amazon Web Services
Reader API
- 249 users
- jina.ai
- テクノロジー
- 2024/05/16
World-class neural retriever for maximizing search relevancy.
- LLM
- API
- AI
- あとで読む
- search
- markdown
- RAG
- scraping
- スクレイピング
- 便利
【Linux】スクレイピングにはNordVPNが便利・設定方法を解説【[date]】
- 248 users
- tipstour.net
- テクノロジー
- 2022/04/25
Webスクレイピングをしたいのだけど、VPNやプロキシーで一番良いサービスはないだろうか！？ Linuxで使えるベストなVPNサービスを教えてほしい！ …という形に、最適なプラクティスをご紹介します。ということで、こんにちは！ Webサイトを自動で取得する「Webスクレイピング」をする上で、必ずネックとなるのがアクセスするIPアドレスの問題です。スクレイピングする対象のサービスの営業妨害にならない範囲でスクレイピングするのは言うまでもない当然の話ですが、Webサイトによっては、少しのアクセスでも不正なアクセスと認識してIPアドレスごとブロックしてしまうことがあります。これを回避するためには、定期的なIPアドレス変更などの対応が必要です。一般的にはこうした問題はプロキシーやVPNサービスを使って回避することになりますが、具体的にはどうしたら良いのでしょう？結論を言いますと、「Nor
Webスクレイピングとは？Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクスエンジニアブログ
- 239 users
- tech-blog.rakus.co.jp
- テクノロジー
- 2020/10/30
はじめに Webスクレイピングの基本事項 Webスクレイピング(Scraping)とは Webスクレイピングの活用シーン Webスクレイピングの基本的な仕組み Webスクレイピングの注意事項取得先への攻撃とみなされたり、規約違反や、著作権法違反に問われることもある取得先の変更に影響を受ける取得先がAPIを公開しているならそちらを活用する方が良い Webスクレイピングの実践方法 Webスクレイピングを実践するには 1. ベンダーのサービスやツールを利用する 2. 自分でプログラムを作成するなぜPythonなのか？ Pythonでのスクレイピング実践方法事前準備 BeautifulSoup4のインストール模擬Webサイトの構築 Webサーバーを立ち上げる初級編：特定の要素から単一の要素を抜き出す中級編：あるページから繰り返しを伴う複数の要素を抜き出す上級編：複数のページから複
AIスクレインピングエージェントの構築(LangGraph, Firecrawl)
- 210 users
- zenn.dev/shoheiweb
- テクノロジー
- 2024/12/27
はじめにこの記事では、LangGraphとFirecrawlを使用して、企業のWebサイトから特定の情報を抽出するWebスクレインピングエージェントを構築する方法を紹介します。具体的には、企業のホームページから社長の名前を取得する方法を解説します。参考にさせていただいた動画この動画では特定のキーワードをホームページから取得していますが、今回は正規表現では取得できないより抽象的な情報を取得することに挑戦しました。使用技術 LangGraph LangGraphは、AIエージェントを作るためのツールで、複雑な処理をいい感じに管理してくれる便利なフレームワークです。状態遷移グラフを使って、どの処理をどの順番でやるかを分かりやすく設計できます。特徴: 処理の流れを図にして確認できる（Mermaid図対応）条件分岐や並列処理ができて柔軟タスクの状態を一括管理本プロジェクトでの役割:
月間1.6億秒の Lambda x Node.js 利用から得られた知見
- 183 users
- tech.stockmark.co.jp
- テクノロジー
- 2022/10/19
ストックマークのプロダクト開発・運用では、Node.jsを利用してAWS Lambda を月間1.6億秒利用しています。本記事ではそこから分かった知見を紹介します。
- lambda
- Node.js
- あとで読む
- スクレイピング
- aws
- scraping
- techfeed
- node
- qiita
GitHub - mgdm/htmlq: Like jq, but for HTML.
- 183 users
- github.com/mgdm
- テクノロジー
- 2021/09/07
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- html
- cli
- rust
- jq
- tool
- css
- あとで読む
- github
- curl
- parser
browser-useメモ
- 143 users
- zenn.dev/laiso
- テクノロジー
- 2025/01/02
browser-useについて調査するどういうものかブラウザのデバッグプロトコルを使ってLLMで操作するpythonライブラリ Playwright API → Chrome DevTools Protocol (CDP) ClaudeのComputer useのスコープを狭めたものと理解できる似たツールとしてMCPのPuppeteerサーバーがある→mcp/puppeteer モデル（LLM）の呼び出しにLangChain Modelのインターフェイスに依存することでマルチプロバイダ対応してるなのでLangChainで動くモデルに対応してる結果的にLangChain風のAgentフレームワークのミニマムな実装になってる何ができるの？ブラウザ操作を自動化してできることはできる Hugging Faceで特定のライセンスを持つモデルを検索し、その情報をファイルに保存する求人情
- AI
- あとで読む
- browser
- ブラウザ
- chrome
- Python
CloudflareがAIクローラーを無限生成迷路に閉じ込める「AI Labyrinth」を発表
- 125 users
- gigazine.net
- テクノロジー
- 2025/03/24
クラウドコンピューティングサービスのCloudflareが、不正行為をするボットをAIが生成する迷路に閉じ込める「AI Labyrinth」を発表しました。 Trapping misbehaving bots in an AI Labyrinth https://blog.cloudflare.com/ai-labyrinth/ AIのトレーニングに利用するデータをインターネット上からスクレイピング(収集)するのに使用されるボットがクローラーです。クローラーはインターネット上からあらゆる情報を収集するため、AI企業は「生成AIモデルのトレーニングにコンテンツを利用された」としてコンテンツ制作者から訴訟を起こされています。こういった動きに対処するため、AI企業の中には「クローラーが収集したデータをAIのトレーニングに利用しないようにするためのオプション」を提供しているところもあります。他に
Twitter Rate Limitsに関するアップデート
- 106 users
- business.x.com
- テクノロジー
- 2023/07/05
<path opacity="0" d="M0 0h24v24H0z" /> <path d="M17.207 11.293l-7.5-7.5c-.39-.39-1.023-.39-1.414 0s-.39 1.023 0 1.414L15.086 12l-6.793 6.793c-.39.39-.39 1.023 0 1.414.195.195.45.293.707.293s.512-.098.707-.293l7.5-7.5c.39-.39.39-1.023 0-1.414z" /> </svg>" data-icon-arrow-left="<svg width="28px" height="28px" viewbox="0 0 28 28" version="1.1" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://ww
- misc
- twitter
- あとで読む
- API
- AI
- society
Firecrawlで簡単スクレイピング：Pythonプログラムでの実践例
- 102 users
- zenn.dev/ogiki
- テクノロジー
- 2025/01/01
はじめに前回と前々回は、browser-useに関する記事を投稿し、AIが自律的にWebブラウザを使ってコンテンツ情報を取得する仕組みについて解説しました。今回は、Webブラウザを介さずに「スクレイピング」という手法でコンテンツ情報を取得するツール、Firecrawlを試してみます。ただし、「スクレイピング」は誤った使い方をすると他のWebサイトに迷惑をかけたり、トラブルを引き起こす可能性があります。そのため、ご自身が管理しているWebサイトや利用許可を得たサイトでのみ実施するようにしてください。それでは、Firecrawlを使ったスクレイピングに挑戦してみましょう！ Firecrawlについて Firecrawlは、指定したURLをクロールし、その内容をマークダウン形式や構造化データに変換するAPIサービスです。手軽にウェブ情報を整理・変換できるため、データ収集や分析に役立つツール
Pythonのみで業務スーパーの各店舗と気象状況を可視化する - Qiita
- 92 users
- qiita.com/OgawaHideyuki
- テクノロジー
- 2021/03/21
みなさん、業務スーパー使ってますか？私は、朝ごはんに業務スーパーのインスタントフォー（チキン味）を食べるようにしていることから、週1回は業務スーパーに通っています。最近、全都道府県に店舗が出店されたそうです（パチパチパチ）。というわけで、業務スーパーの全店舗の位置をプロットしてみようかと思いました。あと可視化だけだとちょっと退屈なので、気象データを使っていくつかの店舗の気温の比較を行います。foliumで作った可視化は次のようになります。開発環境: Python 3.9.1 folium 0.12.1 pandas 1.2.3 requests 2.25.1 requests_html 0.10.0 xarray 0.16.2 ハンズオン開催しますはんなりPythonで、この記事であったrequests / requests-htmlを使ったデータ取得ハンズオンを行います。ご関心をお
「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表
- 90 users
- gigazine.net
- テクノロジー
- 2023/07/04
2023年7月1日にGoogleがプライバシーポリシーを変更し、「GoogleのAIモデルのトレーニング」のために「一般に公開される情報」を使用すると明言したことが分かりました。記事作成時点で、このプライバシーポリシーはアメリカ国内向けに発行されています。プライバシーポリシー – ポリシーと規約 – Google https://policies.google.com/privacy/archive/20221215-20230701 Google Says It'll Scrape Everything You Post Online for AI https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486 VPNやインターネットアーカイブなどを通してアメリカ国内向けのプラ
- 人工知能
- google
- AI
- 生成AI
- techfeed
- あとで読む
GASを使ったスクレイピングの作成手順を紹介！ | 株式会社LIG(リグ)｜DX支援・システム開発・Web制作
- 86 users
- liginc.co.jp
- テクノロジー
- 2021/07/07
こんにちは！エンジニアのまうみです。突然ですが、「今使ってるブログサービスからWordPressに引っ越ししたい」と検討中の方はいらっしゃいますか。もし、現在のブログサービスに記事をエクスポートする機能がない場合、手作業で記事を更新する必要があります。10記事程度ならまだしも、100記事以上ともなると、それは流石に手作業では骨が折れますね。そこで今回はGoogle Apps Script（以下：GAS）で、スクレイピングしたデータをスプレッドシートに保存するプログラムを作り方をご紹介します。【前提】スクレイピングとはスクレイピングとは、あらかじめ指定したWebサイトを巡回して情報を取得し、新たな情報を出力するためのプログラムです。今回は、開発環境を構築することなく簡単にプログラムを実行できるGASを使用します。特に開発環境は初心者がつまづくところなので、そこをスキップできるの
どこにも遊びに行けないなら"はてブ"のデータ分析をして遊べばいいじゃない - ゆとりずむ
- 78 users
- www.yutorism.jp
- 暮らし
- 2021/05/04
こんにちは、らくからちゃです 2年連続ステイホームのゴールデンウィークになりそうです。もはやゴールデンウィークって普段何してたのか忘れかけてきたので、過去の履歴を漁ってみたら、一昨年は伊豆半島の東側をぐるぐる回りながら下田までいってたみたいです。そういやコロナ前のゴールデンウィークって何してたんだっけ？と思ってGoogleフォトのフォルダ漁ってみたら、伊豆半島をぐるぐるしてたらしい。また落ち着いたら行きたいなあ。 pic.twitter.com/N0fNxIZ5Uq — らくからちゃ@育休中専業主夫 (@lacucaracha) 2021年5月3日こんなどこにも行けない日には、家でデータ分析をするに限りますね！！（鼻息）統計局が、e-statを使って遊ぶ方法も教えてくれるそうなので、ご興味がある方は是非！ gacco.org 統計として公開されているデータを眺めてみるのも面白いっ
expand.ai
- 74 users
- www.expand.ai
- テクノロジー
- 2024/09/11
expand.ai instantly turns any website into a type-safe API you can rely on. √Reliable scraping infrastructure√High quality with back checking√Great developer experience√Instant API for any website const companies = await expand({ sources: ['https://www.ycombinator.com/companies'], // auto-generated schema by expand.ai schema: Model('Company', { name: Expand.String, batch: Expand.String, url: Expan
- api
- AI
- あとで読む
- scraping
- tool
【悪用厳禁】AWS Lambda で Tor を使う
- 70 users
- zenn.dev/yusugomori
- テクノロジー
- 2020/10/10
AWS の Lambda 経由でクローリング/スクレイピングを行いたい場合、Headless Chrome (chromium) を用いることで実現できますが、更にその際、Tor を用いることで IP アドレスを秘匿化する方法について紹介したいと思います。 ※ 実装は TypeScript で行っていきます。 Tor のレイヤー化「Tor ブラウザ」があるので勘違いされやすいですが、Tor は別に Tor ブラウザに限定されているものではなく、自分でtorコマンドを実行することで、例えば普段使っている Chrome 等の一般のブラウザも「Tor化」することができます。 torコマンドはこちらの Tor プロジェクトでバージョン管理されており、ダウンロード＆コンパイルすることで誰でも簡単に使用することができます。また、自分でコンパイルせずとも、例えば MacOS だと Homebrew
- tor
- lambda
- aws
- あとで読む
- chrome
- scraping
- スクレイピング
- OS
- browser
neue cc - .NET 6とAngleSharpによるC#でのスクレイピング技法
- 59 users
- neue.cc
- テクノロジー
- 2021/12/04
C# Advent Calendar 2021の参加記事となっています。去年は2個エントリーしたあげく、1個すっぽかした（！）という有様だったので、今年は反省してちゃんと書きます。スクレイピングに関しては10年前にC#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法という記事でSGMLReaderを使ったやり方を紹介していたのですが、10年前ですよ、10年前！さすがにもう古臭くて、現在ではもっとずっと効率的に簡単にできるようになってます。今回メインで使うのはAngleSharpというライブラリです。AngleSharp自体は2015年ぐらいからもう既に定番ライブラリとして、日本でも紹介記事が幾つかあります。が、いまいち踏み込んで書かれているものがない気がするので、今回はもう少しがっつりと紹介していきたいと思っています。それと直近Visual
- C#
- .NET
- スクレイピング
- neuecc
- programming
- scraping
- あとで読む
- html
[サーバレス] Googleスプレッドシートでスクレイピング - Qiita
- 56 users
- qiita.com/mogya
- テクノロジー
- 2020/08/11
スクレイピングがやりたかったんだけど、サーバの管理がめんどくさくなったので、Googleスプレッドシートの上でスクレイピングを出来るようにした。やりたいこと献血で、400mlAB型の血液が不足してます、A型は今大丈夫です、みたいな情報が、献血センターのwebサイトに掲載されるようになった。たとえば宮城県赤十字血液センターの今週の献血状況。AB型の人は成分献血にするか、次の機会にしたほうが良いらしい。これ以外の県も、各県の献血センターに掲載されているこういう情報をオープンにしてくれたのはとてもうれしいことなんだけど、webページに掲載されたって、ぼくらがわざわざ見に行かない限り気が付かない。できればこう、SNSで「今週の献血状況」みたいなことを発表してくれるといいよね。そしたら、「あ、AB型足りない？今週は余裕があるからじゃあぼく行くね」みたいなことが出来ていいと思うのよ。ない
Selenium と Playwright の両方を使ってみた感想 - 新しいことにはウェルカム
- 54 users
- www.kwbtblog.com
- テクノロジー
- 2022/07/29
WebのクローリングにPuppeteerを使っています。いつかPuppeteerの使い方をまとめたいなと思っていたのですが、そうこうしている内に月日は流れ、Puppeteerと同様のブラウザ操作ツールとして、Playwrightの名前をよく聞くようになってきました。ならばいっそのこと、新たにクローラーを書く時はPlaywrightに乗り換えて、その使い方をまとめようかなと思い始めました。一方、ブラウザ操作ツールとしてSeleniumも有名です。 Microsoft Power AutomateでSeleniumが使えると聞いたので、Seleniumならクローリングだけでなく、日々の業務の自動化にも使えて便利かなとSeleniumにも興味がありました。 SeleniumとPlaywright、どちらにしようかと迷ったのですが、どちらも使ったことがなかったので結局両方を使って確かめること
【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章スクレイピングによる公共データベース（PDB)からの機械学習データを収集~ - LabCode
- 47 users
- labo-code.com
- テクノロジー
- 2024/02/01
本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース（PDB)からの機械学習の学習データを収集となります。webからの情報収集であるスクレイピングの基礎ができるようになります。ぜひ、トライしてみてください！第1章はこちら。 AI創薬とは？ AI創薬は、人工知能（AI）技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが
ウェブサイトがAIボットにスクレイピングの料金を請求できるマーケットプレイスをCloudflareが発表
- 47 users
- gigazine.net
- テクノロジー
- 2025/07/02
AIモデルの発展に不可欠なトレーニングには書籍や論文、ウェブサイトなどのコンテンツが大量に使われていますが、それらの著者には無許可で使用されていることがほとんどです。そのため、クラウドコンピューティングサービスのCloudflareは、不正行為をするボットを迷路に閉じ込める「AI Labyrinth」や、AIトレーニング用のクローラーを分析・制御する「AI Audit」など、AI企業のクローラーからコンテンツの制作者が管理権を取り戻すためのツールを発表しています。さらにCloudflareは2025年7月、ウェブコンテンツの制作者がAI企業にコンテンツを配信し、その対価を得ることができる新しいタイプのマーケットプレイス「Pay per Crawl」を発表しました。 Introducing pay per crawl: enabling content owners to charge AI
第2章　ブラウザ操作自動化の基本～非同期処理を扱うasync/await関数、自動化の鍵を握るPuppeteerコンポーネント | gihyo.jp
- 44 users
- gihyo.jp
- テクノロジー
- 2022/09/13
［速習］ Puppeteer ～ヘッドレスChromeでテスト＆スクレイピング第2章ブラウザ操作自動化の基本～非同期処理を扱うasync/await関数、自動化の鍵を握るPuppeteerコンポーネント第2章では、実際にヘッドレスChromeを自動化するうえで必要となる、最新のJavaScriptの構文やPuppeteerのAPIについて解説します。進化し続けるJavaScript PuppeteerのAPIを解説する前に、第1章の冒頭で掲載したサンプルコードを見返してみましょう。もしかすると、中にはまったく見慣れない構文が見つかったかもしれません。 const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await b