並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

robots.txtの検索結果1 - 16 件 / 16件

  • 無償のPower Automate DesktopでWeb情報収集の自動化を試みる

    日々のニュースや知りたい情報をWebやメール、SNSから入手することが当たり前になった昨今だが、欲しい情報を能動的に収集することも自動化してみたいそう思った。RSSツールやWeb収集ツールは高速でSNSをサポートするものもある。しかしWebサイトに必ずしもRSSフィードを設置しているわけではないので能動的にPythonなどでWebを解析するスクレイピング技術があるがWebごとに解析する仕様では作成するのはなかなか大変だ。 無償のPower Automate Desktopを使ってみる Windows 11の最新版を入手するためにノートPCを入手したが、デフォルトで搭載されていたPower Automate Desktopでは「ブラウザー自動化」もフローに搭載されている。これを試してみよう。なお、スクレイピングやツールによる過度なアクセスはWebサーバーへの負担がかかるため禁止しているサイト

      無償のPower Automate DesktopでWeb情報収集の自動化を試みる
    • 防衛省サイバーコンテスト 2025 writeup - st98 の日記帳 - コピー

      2/2に12時間というちょうどよい競技時間で開催された。21時終了だったけれども、11時45分ぐらいに最速で全完して1位🎉 第1回以来4年ぶりの優勝だ。昨年大会の第4回ではヒントの閲覧数で優勝を逃してしまって悔しい思いをしたので、雪辱を果たすことができ嬉しい。開始直後からずっと1位を独走できており、450名以上のプレイヤーがいる中で圧勝だったのも嬉しい。 昨年度や一昨年度はバルクが作問を担当していたが、今回はAGESTが担当していた。これまでの問題と比較すると全体的に易化したように思うが、解くにあたって発想の大きな飛躍を必要とするいわゆる「エスパー要素」のある問題はごく一部を除いて存在しておらず*1、よかったと思う。また、昨年度・一昨年度に引き続きwriteupは公開可能というのもよかった。 戦略というほどの戦略は立てていなかったけれども、とりあえずWebを見た後は全カテゴリを上から見て

        防衛省サイバーコンテスト 2025 writeup - st98 の日記帳 - コピー
      • AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた | DevelopersIO

        AWS WAF のBotControlルールにおいて、AIカテゴリに分類されるスパイクアクセスが発生。 動的生成される記事ページへのリクエストが、1時間あたり5万件、ピーク時には1分間に1500件記録されていました。 当サイトで公開中の5万件強の全記事数に匹敵するリクエストが発生した原因の調査と、実施した対策について紹介します CloudWatchメトリクス確認 原因を特定するため、AWS WAFのメトリクスを分析しました bot:category AI の 急増 AIカテゴリのリクエスト数が、1時間あたり5万件まで顕著に増加しました。 他のカテゴリ(search_engine: Google、Bing など、social_media: X、Facebook など)には大きな変動は見られませんでした。 LabelNamespace="awswaf:managed:aws:bot-contr

          AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた | DevelopersIO
        • 急増するAIクローラー対策として「llms.txt」を導入してみた | DevelopersIO

          AIクローラーによる過剰アクセスの発生をうけ、対策としてサイト構造化データファイル「llms.txt」(Large Language Model Specifications) を公開しました。 LLMに適切なクロール方法を指示し、サイトリソースの効率的な利用を意図して反映した指示内容について紹介させていただきます。 LLMに適切なクロールを促すため、llms.txtに反映した指示内容について紹介します。 設置 マークダウン形式のテキストファイルを作成し、robots.txtや、エラーページを格納するS3バケットに保存。 以下のURLで公開しました。 https://dev.classmethod.jp/llms.txt llms.txt 内容 user-agent 特定のLLMに限定せず、すべてのAIクローラーに適用されるよう設定しました。

            急増するAIクローラー対策として「llms.txt」を導入してみた | DevelopersIO
          • CloudflareがAIクローラーを無限生成迷路に閉じ込める「AI Labyrinth」を発表

            クラウドコンピューティングサービスのCloudflareが、不正行為をするボットをAIが生成する迷路に閉じ込める「AI Labyrinth」を発表しました。 Trapping misbehaving bots in an AI Labyrinth https://blog.cloudflare.com/ai-labyrinth/ AIのトレーニングに利用するデータをインターネット上からスクレイピング(収集)するのに使用されるボットがクローラーです。クローラーはインターネット上からあらゆる情報を収集するため、AI企業は「生成AIモデルのトレーニングにコンテンツを利用された」としてコンテンツ制作者から訴訟を起こされています。 こういった動きに対処するため、AI企業の中には「クローラーが収集したデータをAIのトレーニングに利用しないようにするためのオプション」を提供しているところもあります。他に

              CloudflareがAIクローラーを無限生成迷路に閉じ込める「AI Labyrinth」を発表
            • X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

              robots.txtでは正規表現は使えない――改めて技術を正しく理解したいと心から思うミスがX(Twitter)のサイトに見付かった。今回のピックアップでは、この件に加えて、複数サイトを管理している人向けの便利なrobots.txt管理術をお届けする。 もちろん、ほかにもSEO情報をしっかりまとめている。ローカルSEOのテクニックと基本情報、デスクトップ用Googlebot終了、著者情報とSEO、生成AIなどなど、今回もあなたのSEO力アップに役立つ情報をお届けする。 X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)複数サイト管理者に朗報: robots.txtはリダイレクトでまとめて管理できるローカルSEOで上位表示するためのTIPS×8ローカルSEOスターターガイド(基本版)2024年6月のグーグル検索オフィスアワー: コピーコンテンツが正規UR

                X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
              • OpenAIのクローラーボットが3Dスキャンデータ販売サイトをほぼDDoS攻撃な徹底スクレイピングでダウンさせていた

                人間の全身や顔、手などを3Dスキャンしたデータの販売を行う「Triplegangers」というサイトが、OpenAIのクローラーボットによりダウンさせられていたことがわかりました。ボットは、販売されている数十万枚のデータについて、それぞれダウンロードを試みるリクエストを送信してきており、CEOは「実質的にDDoS攻撃のようなものだった」と説明しています。 How OpenAI's bot crushed this seven-person company's website ‘like a DDoS attack’ | TechCrunch https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/ Tripleganger

                  OpenAIのクローラーボットが3Dスキャンデータ販売サイトをほぼDDoS攻撃な徹底スクレイピングでダウンさせていた
                • 検索結果に表示させない技術 robots.txt と X-Robots-Tag を正しく組み合わせよう - Techtouch Developers Blog

                  はじめに robots.txt robots.txt の基本 robots.txt の限界 X-Robots-Tag X-Robots-Tag の仕様 X-Robots-Tag と robots.txt の組み合わせに注意 X-Robots-Tag の限界 さいごに 参照 はじめに こんにちは。SRE マネージャーの izzii です。最近会社でオフィスの引越しがありました。前のオフィスはコワーキングスペースで複数社で空間を分割するようなオフィスだったのですが、フロア丸々テックタッチというのが新鮮です! エレベーターを上がると会社のロゴが大きく見えるのが嬉しい! さて、私は一年ほど前にウェブセキュリティの文脈でクローラーについて調査することがありました。そこで robots.txt や meta tag に関する不正確であったり古い記事が、検索の上位に紛れ込んでいることに気がつきました。同

                    検索結果に表示させない技術 robots.txt と X-Robots-Tag を正しく組み合わせよう - Techtouch Developers Blog
                  • LLMs.txtについての覚書

                    LLM時代のWebアクセスとは 世は大LLM時代。皆が元気にTavilyでWebクロールしたり、AI AgentでガンガンDeep Researchする時代は、人間用のWebサイトにえげつない負荷を与えているのであった。 そんな時に「仕様を1枚のテキストにまとめたよ!」みたいな情報が時々流れてくるが、これはLLMs.txtというらしい。恥ずかしながら仕様の存在を知らなかったので、勉強がてらにまとめてみる。 LLMs.txt? Answer.AI の Jeremy Howard 氏が2024/9/3に提案したのが発端のようだ。 LLMs.txtはLLM(推論エンジン)向けの課題を解決するための提案である。LLMのコンテキストウィンドウの制限に対応したり、不要なマークアップやスクリプトを削除し、AI処理に最適化された構造でコンテンツを提供できる。ということらしい。シングルファイルなのでCDNに

                      LLMs.txtについての覚書
                    • AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開

                      Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。 Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」(ネペンテス)にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。 同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepent

                        AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開
                      • AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に

                        AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリングの禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータの総量が1年で約5%、高品質なデータの約25%が使えなくなったことがわかりました。 Data Provenance Initiative https://www.dataprovenance.org/consent-in-crisis-paper Data for A.I. Training Is Disappearing Fast, Study Shows - The New York Times https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html AIモデル

                          AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に
                        • 失われるWebの多様性——AIクローラー戦争が始まった

                          AI企業がモデルの訓練のためにWebサイトから大量のデータを収集する動きに対抗して、クローラーをブロックするサイトが増えている。オープンなWebの理念が危機に瀕している。 by Shayne Longpre2025.02.14 10 この記事の3つのポイント インターネットはクローラーに依存しており半分のトラフィックを占める Webサイト運営者はAIクローラーによるデータ収集を恐れ反撃を始めている Webサイトによるクローラー制限はWebの開放性と透明性を損なう恐れがある summarized by Claude 3 私たちはよく、インターネットを当たり前のように利用している。指先ひとつで情報の大海を回遊でき、快適に利用できる。しかし、このシステムは「クローラー(Crawler)」と呼ばれるボットの群れに依存している。これらのボットはWeb上を巡回し、毎日何百万ものWebサイトにアクセスし

                            失われるWebの多様性——AIクローラー戦争が始まった
                          • ブログで llms.txt を提供してみた

                            Note 2025 年 3 月現在では llms.txt は標準化されていない仕様です。この記事に書かれている内容は今後の変更により古くなる可能性があります。 ChatGPT や Grok, Claude, Gimini などの大規模言語モデルはますますウェブサイトの情報に依存してきています。特に最近登場した Deep Research はエージェント型のモデルがウェブサイトを巡回し、多段階のリサーチを自動で実行できるように設計されています。Deep Research が効果的に機能するためには AI エージェントが効率的にウェブサイトの情報を取得できることが重要です。 しかし従来のウェブサイトは人間向けのマークアップが主であり、AI ボットが情報を収集する際には多くの障壁があります。装飾のための CSS, 広告, 複雑な JavaScript などの要素は、本質的な情報の抽出を困難にして

                              ブログで llms.txt を提供してみた
                            • 生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

                              Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク

                                生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
                              • 最近作ってる地味LLMコマンドラインツールたち: site2pdf, askrepo - laiso

                                地味LLMコマンドラインツールとは ここでいうLLMツールとは、モデルのインプットとアウトプットを繋ぐ「グルーコード」として機能するプログラムのことです。 筆者が現在開発しているツールもLLMをベースにして、従来の作業をより簡便にすることを目的としています。 このツールは単独で完結する価値を持つというよりも、他のツールと組み合わせることでその真価を発揮します。 そのため、外見的には派手さがなく、地味な存在といえるでしょう(コマンドラインツールがそもそも地味の代名詞でありますが)。 例えば、アプリのソースコードを自動生成するような華やかなツールがある一方で、バックエンドで静かにデータを整形するだけの地味なライブラリも存在しているのです。 Gemini系モデルの良いところ ツールの共通点としては意外とGemini系モデルを活用しています。 Geminiの特徴の一つは、その「トークン長」、つまり

                                  最近作ってる地味LLMコマンドラインツールたち: site2pdf, askrepo - laiso
                                • 100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明

                                  OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。 How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html Google reporte

                                    100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
                                  1