並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 17 件 / 17件

新着順 人気順

スクレイピングの検索結果1 - 17 件 / 17件

  • Twitter障害はスクレイピングではなく“自己DDoS”が原因?

    Twitterのオーナー、イーロン・マスク氏は7月1日、Twitterでの“サービスの低下”の原因を「数百の組織がTwitterのデータを極度なレベルでスクレイピングしている」ことだとツイートしたが、原因は別のところにあるようだと、フリーランスのWeb開発者、シェルドン・チャン氏がMastodonの投稿で指摘した。 この“サービスの低下”で、多数のユーザーが投稿を読めなくなっている。マスク氏は2日、「極端なレベルのデータスクレイピングとシステム操作に対処するため」にユーザーが読める投稿数に制限を加えたとツイートした。 だがチャン氏は、異常なトラフィックの原因として、TwitterのWebアプリのバグにより、無限ループ状態でTwitterにリクエストが送信されていることを発見したと動画を添えて説明した。この動画では毎分数百件のリクエストが送信されていることが確認できる。 左の動画は、レートが

      Twitter障害はスクレイピングではなく“自己DDoS”が原因?
    • Twitter、閲覧制限について予告しなかったのは「スクレイピング対策を回避させないため」

      Twitterを運営する米Xは7月4日(現地時間)、広告主向けのブログで、数日前に予告なしに閲覧制限を実施したことについて説明した。 閲覧制限の目的は「プラットフォームに害を及ぼすボットやその他の悪人を検出して排除」するためで、予告しなかったのは「事前通知があれば、悪意のある行為者が検出を回避するために動作を変更することが可能になってしまう」からだとしている。 “悪意のある行為者”は、「AIモデル構築のためにTwitterデータをスクレイピング」したり「Twitter上の会話を操作」したりしているという。 Xは、この制限の「広告への影響は最小限に抑えられている」としている。 また、「作業が完了したら更新情報を提供する予定」という。 関連記事 TweetDeck 2.0リリース 30日以内にTwitter Blue加入が必須に? Twitterの公式クライアント「TweetDeck」でも混乱

        Twitter、閲覧制限について予告しなかったのは「スクレイピング対策を回避させないため」
      • 「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表

        2023年7月1日にGoogleがプライバシーポリシーを変更し、「GoogleのAIモデルのトレーニング」のために「一般に公開される情報」を使用すると明言したことが分かりました。記事作成時点で、このプライバシーポリシーはアメリカ国内向けに発行されています。 プライバシー ポリシー – ポリシーと規約 – Google https://policies.google.com/privacy/archive/20221215-20230701 Google Says It'll Scrape Everything You Post Online for AI https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486 VPNやインターネットアーカイブなどを通してアメリカ国内向けのプラ

          「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表
        • Twitterが1日に閲覧できるツイート数に制限を設ける、イーロン・マスクは理由を「極端なスクレイピングに対処するため」と説明

          Twitterを買収したイーロン・マスク氏が、Twitterに閲覧制限を設けたことを明かしました。1日の閲覧制限は当初、Twitter Blueに加入している認証済みアカウントの場合は6000件、未認証アカウントの場合は10分の1の600件だったのですが、この制限は徐々に増加しています。 2023年7月2日2時頃、マスク氏は「極端なレベルのデータスクレイピングとシステム操作に対処するため、一時的に制限を設けました」とツイートし、Twitterにツイートの閲覧制限を設けたことを明かしました。 To address extreme levels of data scraping & system manipulation, we’ve applied the following temporary limits: - Verified accounts are limited to readi

            Twitterが1日に閲覧できるツイート数に制限を設ける、イーロン・マスクは理由を「極端なスクレイピングに対処するため」と説明
          • 読売新聞、Web記事の“生成AIへの学習利用”を禁止に 利用規約を改定 スクレイピングなどもNG

            読売新聞社は1月25日、Webメディア「読売新聞オンライン」の利用規約を改定すると発表した。掲載記事を生成AIなどに学習させる行為などを新たに禁じる。2月1日から適用する。 禁止事項として新たに3点を追加。「データマイニング、テキストマイニングなどのコンピュータによる言語解析行為」「クローリング、スクレイピングなどの自動化した手段でデータ収集や抽出、加工、解析、蓄積などをする行為」「生成AIなどに学習させる行為、生成AIなどを開発する行為」を禁じた。 これらの禁止事項を含めた情報解析のために、同メディアの記事を利用したい場合は、読売新聞とライセンス契約を結ぶ必要があるとしている。 生成AIを巡っては、米The New York Timesは2023年12月に米Microsoftと米OpenAIを著作権侵害で提訴するなど、新聞業界は反発している。The New York Timesは「両社が

              読売新聞、Web記事の“生成AIへの学習利用”を禁止に 利用規約を改定 スクレイピングなどもNG
            • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

              AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

              • Twitterの親会社であるXが「Twitterでデータスクレイピングを行い損害を与えた」として4人を提訴、1億3000万円超の損害賠償を求める

                Twitterの親会社であるXが2023年7月6日、「Twitterのユーザーデータをスクレイピングして損害を与えた」として匿名の個人4人を訴えました。Xはテキサス州ダラス郡の連邦地方裁判所に提出された訴状で、「テキサス州の住民に関連するデータを違法にスクレイピングした」と主張し、被告に対して100万ドル(約1億3700万円)以上の損害賠償を求めています。 X CORP v. JOHN DOE 1, et al :: District Court of Dallas County, Texas :: Federal Court Proceeding No. DC-23-09157 https://www.plainsite.org/dockets/50n1oahec/district-court-of-dallas-county-texas/x-corp-v-john-doe-1-et-a

                  Twitterの親会社であるXが「Twitterでデータスクレイピングを行い損害を与えた」として4人を提訴、1億3000万円超の損害賠償を求める
                • Deno で始めるスクレイピング講座

                  初めに 皆様スクレイピングは知っていますか? スクレイピングの定義はこうです。 ウェブスクレイピングとは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。 要するにブラウザからFetch等で取得するのではなく、 Python や Cpp でHTTPリクエストを送信し、レスポンスを解析することでサイトの情報を取得する事です。 Python では BeautifulSoup や Requests 、Selenium等が有ります。 レスポンスのHTMLソースをDOM解析して情報を取得することが出来ます。 Deno は言わずと知れた JavaScriptランタイムの大御所です。 PythonよりもDOM解析に優れています。 アプロ

                    Deno で始めるスクレイピング講座
                  • 「情報はタダじゃない」訴える意図? Twitter閲覧制限 “スクレイピング”…サーバー負荷にマスク氏不満か|日テレNEWS NNN

                    突然Twitterの閲覧に制限をかけたマスク氏。そこには、生成AIの開発で情報をかき集められることと、大量のデータ抽出でサーバーに大きな負荷がかかることへの不満があるとみられています。専門家によると、制限はいつまでも続かないといいますが…。 有働由美子キャスター 「本当に突然でわさわさしましたけれども、なぜ今、突然マスク氏は(Twitterの閲覧制限を)決めたんでしょうか?」 小野高弘・日本テレビ解説委員 「マスク氏の真意はなにかを考えると、『情報はタダじゃないぞ』ということを言いたいのではないかと思います」 有働キャスター 「というのは…」 小野解説委員 「マスク氏は『Twitterの情報が“スクレイピング”されている』と表明しています。このスクレイピングというのは、“情報をもっていかれる”という意味です」 「今、Twitterでやりとりされる会話や情報をチャットGPTなど生成AI(=人

                      「情報はタダじゃない」訴える意図? Twitter閲覧制限 “スクレイピング”…サーバー負荷にマスク氏不満か|日テレNEWS NNN
                    • Twitter、スクレイピング対策を理由として非ログインユーザーを一時的にブロック | スラド IT

                      Twitter では現在、ログインしなければユーザーの投稿やタイムラインを閲覧できないよう制限されている (BleepingComputer の記事、 The Verge の記事、 Deskmoder.de の記事、 Ghacks の記事)。 複数ユーザーの質問に対するイーロン・マスク氏の回答によれば、大量に Twitter のデータをスクレイピングする組織が数百もあり、緊急かつ一時的な対策としてログインを必須にしているという。現在のところ、投稿の URL を指定してアクセスしようとすると「問題が発生しました。再読み込みしてください。」と表示され、ユーザーのタイムラインにアクセスしようとするとログインが要求される。ログインせずに続行しようとすると Twitter のトップページへリダイレクトされ、ログインしない限り何も閲覧できない。 ユーザーエクスペリエンスを低下させずにスクレイピングを防

                      • 画像に「毒」を盛り、画像生成AIのスクレイピングに対抗するツールを開発--シカゴ大

                        印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 生成型の人工知能(AI)モデルに関連する大きな問題の1つに、AIによるスクレイピングがある。AIスクレイピングとは、AI企業が自社のAIモデルを訓練するという名目で、インターネット上のデータを所有者の許可を得ずに取得するという行為だ。 AIスクレイピングは、視覚に訴えかけるアーティストに対して特に大きな影響を与える可能性がある。というのも、テキストプロンプトから画像を生成するモデルが新たな作品を生み出すために、こうしたアーティストの作品を無許可で使用しているためだ。しかし今回、そのソリューションになるかもしれないツールが開発された。 シカゴ大学の研究者らは、アーティストが自らのデジタルアート作品に「毒」を仕込んでおくことで、AIツールの

                          画像に「毒」を盛り、画像生成AIのスクレイピングに対抗するツールを開発--シカゴ大
                        • OpenAI、コンテンツのスクレイピングを遮断するツール「Media Manager」を2025年までに提供へ

                          米OpenAIは5月7日(現地時間)、コンテンツが生成AIのトレーニングでどう使われるかを制御できるクリエイターやコンテンツ所有者向けツール「Media Manager」を開発中であると発表した。このツールで、クリエイターやコンテンツ所有者は、OpenAIに対して自分のコンテンツをAIの研究やトレーニングのためのデータから除外するよう指定できるようになる見込みだ。 OpenAIは、2025年までにこのツールを提供する計画。こうした取り組みで「クリエイター、コンテンツ所有者、規制当局」と協力しているという。 OpenAIやGoogleなど、生成AIモデルを開発している企業は一般に、ネット上に公開されているデータをトレーニングに使っており、こうしたデータのスクレイピングはフェアユースだとしてきた。 OpenAIと米Microsoftは、1月、記事を無断で使ったとして米The New York

                            OpenAI、コンテンツのスクレイピングを遮断するツール「Media Manager」を2025年までに提供へ
                          • 価格.com: 商品価格比較サイトの利用方法とPythonによるスクレイピング - Python転職初心者向けエンジニアリングブログ

                            価格.com: 商品価格比較サイトの利用方法とPythonによるスクレイピング 価格.comとは 価格.comは、日本国内で最も有名な商品価格比較サイトの一つです。家電製品、家具、ファッションアイテムなど、さまざまな商品の価格を一覧で比較することができます。また、ユーザーレビューや評価も掲載されており、商品選びの参考になります。 価格.comの特徴 豊富な商品情報: 価格.comには、数多くの商品情報が掲載されています。家電製品やゲーム機、食品や衣料品など、さまざまなカテゴリーの商品が網羅されています。 価格比較機能: 価格.comでは、同じ商品を複数の店舗で比較することができます。これにより、最安値やお得なセール情報を簡単に見つけることができます。 ユーザーレビュー: 商品ごとにユーザーレビューや評価が掲載されており、実際の利用者の意見を参考にすることができます。これにより、購入前に商品

                              価格.com: 商品価格比較サイトの利用方法とPythonによるスクレイピング - Python転職初心者向けエンジニアリングブログ
                            • ウェブページ上から情報の一覧を抽出(簡易なスクレイピング)したい場合は、GitHub Copilot や ChatGPT を活用すると便利 | DevelopersIO

                              ウェブページ上から情報の一覧を抽出(簡易なスクレイピング)したい場合は、GitHub Copilot や ChatGPT を活用すると便利 こんにちは、CX事業本部 Delivery部の若槻です。 今回は、ウェブページ上から情報の一覧を抽出(簡易なスクレイピング)したい場合は、GitHub Copilot や ChatGPT を活用すると便利だったので、方法をご紹介します。 ウェブのDOM要素から情報の一覧を抽出したい ウェブページ上から情報の一覧を抽出したい時に、「スクレイピングツールを作るほどではないが、手作業でコピペするのは面倒」ということがあります。 例えば「DevelopersIO のトップページ上の記事一覧からタイトルおよびURLリンクを取得して、[タイトル](URL)という記述の一覧を作成したい」場合などです。 GitHub Cpilot を活用する場合 AI によるコード補

                                ウェブページ上から情報の一覧を抽出(簡易なスクレイピング)したい場合は、GitHub Copilot や ChatGPT を活用すると便利 | DevelopersIO
                              • Google、2023年10月のスパムアップデート(October 2022 Spam Update)を実施。クローキング、ハッキング、自動生成、スクレイピングが主要ターゲット

                                [レベル: 中級] Google は October 2023 spam update(2023 年 10 月のスパムアップデート)の展開を 10 月 4 日(太平洋時間)に始めました。

                                  Google、2023年10月のスパムアップデート(October 2022 Spam Update)を実施。クローキング、ハッキング、自動生成、スクレイピングが主要ターゲット
                                • WSL(Windows Subsystem for Linux)上のUbuntuでSeleniumとChromeDriverを使用してWebスクレイピング - Qiita

                                  WSL(Windows Subsystem for Linux)上のUbuntuでSeleniumとChromeDriverを使用してWebスクレイピングPythonSeleniumchromedriverWSLwebdriver_manager WSL(Windows Subsystem for Linux)上のUbuntuでSeleniumとChromeDriverをセットアップして、PythonからWebスクレイピングする方法を解説します。 環境 OS: Ubuntu 20.04.6 LTS (WSL上) Python: 3.8.10 Selenium: 4.10.0 Architecture: x86_64 CPU: AMD Ryzen 5 1600X Six-Core Processor 1. 必要なパッケージのインストール まず、Ubuntuに必要なパッケージをインストールしま

                                    WSL(Windows Subsystem for Linux)上のUbuntuでSeleniumとChromeDriverを使用してWebスクレイピング - Qiita
                                  • Twitter障害はスクレイピングではなく“自己DDoS”が原因?(ITmedia NEWS) - Yahoo!ニュース

                                    Twitterのオーナー、イーロン・マスク氏は7月1日、Twitterでの“サービスの低下”の原因を「数百の組織がTwitterのデータを極度なレベルでスクレイピングしている」ことだとツイートしたが、原因は別のところにあるようだと、フリーランスのWeb開発者、シェルドン・チャン氏がMastodonの投稿で指摘した。 ジャック・ドーシー氏のNostr投稿 この“サービスの低下”で、多数のユーザーが投稿を読めなくなっている。マスク氏は2日、「極端なレベルのデータスクレイピングとシステム操作に対処するため」にユーザーが読める投稿数に制限を加えたとツイートした。 だがチャン氏は、異常なトラフィックの原因として、TwitterのWebアプリのバグにより、無限ループ状態でTwitterにリクエストが送信されていることを発見したと動画を添えて説明した。この動画では毎分数百件のリクエストが送信されているこ

                                      Twitter障害はスクレイピングではなく“自己DDoS”が原因?(ITmedia NEWS) - Yahoo!ニュース
                                    1