並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

Robotsの検索結果1 - 19 件 / 19件

  • AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた | DevelopersIO

    AWS WAF のBotControlルールにおいて、AIカテゴリに分類されるスパイクアクセスが発生。 動的生成される記事ページへのリクエストが、1時間あたり5万件、ピーク時には1分間に1500件記録されていました。 当サイトで公開中の5万件強の全記事数に匹敵するリクエストが発生した原因の調査と、実施した対策について紹介します CloudWatchメトリクス確認 原因を特定するため、AWS WAFのメトリクスを分析しました bot:category AI の 急増 AIカテゴリのリクエスト数が、1時間あたり5万件まで顕著に増加しました。 他のカテゴリ(search_engine: Google、Bing など、social_media: X、Facebook など)には大きな変動は見られませんでした。 LabelNamespace="awswaf:managed:aws:bot-contr

      AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた | DevelopersIO
    • X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

      robots.txtでは正規表現は使えない――改めて技術を正しく理解したいと心から思うミスがX(Twitter)のサイトに見付かった。今回のピックアップでは、この件に加えて、複数サイトを管理している人向けの便利なrobots.txt管理術をお届けする。 もちろん、ほかにもSEO情報をしっかりまとめている。ローカルSEOのテクニックと基本情報、デスクトップ用Googlebot終了、著者情報とSEO、生成AIなどなど、今回もあなたのSEO力アップに役立つ情報をお届けする。 X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)複数サイト管理者に朗報: robots.txtはリダイレクトでまとめて管理できるローカルSEOで上位表示するためのTIPS×8ローカルSEOスターターガイド(基本版)2024年6月のグーグル検索オフィスアワー: コピーコンテンツが正規UR

        X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
      • 検索結果に表示させない技術 robots.txt と X-Robots-Tag を正しく組み合わせよう - Techtouch Developers Blog

        はじめに robots.txt robots.txt の基本 robots.txt の限界 X-Robots-Tag X-Robots-Tag の仕様 X-Robots-Tag と robots.txt の組み合わせに注意 X-Robots-Tag の限界 さいごに 参照 はじめに こんにちは。SRE マネージャーの izzii です。最近会社でオフィスの引越しがありました。前のオフィスはコワーキングスペースで複数社で空間を分割するようなオフィスだったのですが、フロア丸々テックタッチというのが新鮮です! エレベーターを上がると会社のロゴが大きく見えるのが嬉しい! さて、私は一年ほど前にウェブセキュリティの文脈でクローラーについて調査することがありました。そこで robots.txt や meta tag に関する不正確であったり古い記事が、検索の上位に紛れ込んでいることに気がつきました。同

          検索結果に表示させない技術 robots.txt と X-Robots-Tag を正しく組み合わせよう - Techtouch Developers Blog
        • 生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

          Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク

            生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
          • robots.txtによるクローリング禁止が急増 — AIがWeb全体をクローズドにしつつある

            9月1日、海外のテックメディアIEEE Spectrumで「AIがウェブクローリングをめぐる戦いを巻き起こす(AI Has Created a Battle Over Web Crawling)」と題した記事が公開された。この記事では、ジェネレーティブAIの進化とそれに伴うウェブクローリングに関する論争について、AI研究者グループ「Data Provenance Initiative」のリードリサーチャーであるシェイン・ロングプレ(Shayne Longpre)氏へのインタビューを通じて詳しく解説されている。 ジェネレーティブAIとデータ収集の問題 ジェネレーティブAIは、膨大なデータセットを使用して訓練されることで、驚異的なパフォーマンスを発揮するが、そのデータセットの大部分は、私たちが日常的にインターネット上に公開している情報で構成されている。これには、ブログ投稿、ビデオコンテンツ、S

              robots.txtによるクローリング禁止が急増 — AIがWeb全体をクローズドにしつつある
            • WebサイトのAI学習利用を拒否するrobots.txt拡張の議論 - ASnoKaze blog

              WebページがAIにより学習されないように、拒否できるようにしようという議論があります。 具体的には、ai.txtやrobots.txtなどを使って拒否する提案が出ています。 ai.txt (spawing) https://spawning.ai/ai-txt で 定義されている。 ai.txtの形で配置する 例: User-Agent: * Disallow: *.txt Disallow: *.pdf Disallow: *.doc Disallow: *.docx Disallow: *.odt (略) robots.txt のAI向け拡張 (Microsoft) Microsoftの方らが『Robots Exclusion Protocol Extension to manage AI content use』という提案をIETFに提出している という目的ベースで許可・拒否が出来

                WebサイトのAI学習利用を拒否するrobots.txt拡張の議論 - ASnoKaze blog
              • 「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張

                生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv

                  「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
                • 【ロボットに倫理を教える(Moral Machines Teaching Robots Right from Wrong)】レビュー - sugarless time

                  前書き 目次 レビュー まとめ おまけ 前書き 以前【ロボット法】についてのレビューを投稿しました。 www.sugarless-time.com 今回もそっち関係の書籍レビューになります。 【ロボット法】は2017年に初版発行、こちらの初版(翻訳版)は2019年発行ですが、翻訳前の初版は2009年に発行されており、今から15年も前のものになります。 目次 すべての章についてレビューしたいくらいなのですが、そんな大作を書くのも大変なので、本書の目次を掲載します。目次を追うだけでどのような本かは想像できると思いますので参考にしてください。 序章 第1章 なぜ機械道徳なのか? 路面電車の運転手とロボットのエンジニア 倫理的な殺人機械? 差し迫った危険 第2章 道徳の工学 それはエンジニアの義務なのか? ムーアによる倫理的エージェントの分類 第3章 人類はコンピュータに道徳的な意思決定をしてほし

                    【ロボットに倫理を教える(Moral Machines Teaching Robots Right from Wrong)】レビュー - sugarless time
                  • AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt

                    View of an insect dissolving in a carnivorous pitcher plant, which inspired an AI tarpit called Nepenthes. Credit: Jerry Redfern / Contributor | LightRocket View of an insect dissolving in a carnivorous pitcher plant, which inspired an AI tarpit called Nepenthes. Credit: Jerry Redfern / Contributor | LightRocket Last summer, Anthropic inspired backlash when its ClaudeBot AI crawler was accused of

                      AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt
                    • 「お前ら全部ゆるさん」Xのrobots.txtを覗いてみたけど、AI学習ふくめて汎用クローラー片っ端からはじいてるね

                      のうめん🏗️👺 @nomen_machine Xのrobots.txtを覗いてみたけど、AI学習含めて汎用クローラー片っ端から弾いてるね Xに投稿されたポストは完全にGrokだけに活かすつもりだ pic.x.com/qGyq7AK5et 2024-11-15 17:49:14

                        「お前ら全部ゆるさん」Xのrobots.txtを覗いてみたけど、AI学習ふくめて汎用クローラー片っ端からはじいてるね
                      • Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も

                        生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。 Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones) https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-

                          Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も
                        • Are Japanese anime robots isometric or allometric?

                          Sangjin Ryu1 & Kiyotaka Obunai2 1Department of Mechanical and Materials Engineering, University of Nebraska-Lincoln, Lincoln, NE, USA. 2Department of Mechanical and Systems Engineering, Doshisha University, Kyoto, Japan. Emails: sryu2 (at) unl (dot) edu; kiobunai (at) mail (dot) doshisha (dot) ac (dot) jp Download PDF Robots have been a very popular theme of Japanese animation, or anime, since the

                            Are Japanese anime robots isometric or allometric?
                          • OpenAI's Rules for Model Behavior, Better Brain-Controlled Robots, and more

                            Dear friends, In the last couple of days, Google announced a doubling of Gemini Pro 1.5's input context window from 1 million to 2 million tokens, and OpenAI released GPT-4o, which generates tokens 2x faster and 50% cheaper than GPT-4 Turbo and natively accepts and generates multimodal tokens. I view these developments as the latest in an 18-month trend. Given the improvements we've seen, best pra

                              OpenAI's Rules for Model Behavior, Better Brain-Controlled Robots, and more
                            • 8 Common Robots.txt Issues And How To Fix Them

                              Partner Resource How to Build a Successful SEO Consultancy. Watch this exclusive episode of MozPod for strategies that can transform your consultancy, from defining your branding to finding your first clients. Download Now Guide How AI Can Reshape Your Ecommerce Marketing in 2025 In this on-demand webinar, discover how AI can unlock scalable growth and automate key processes in your ecommerce busi

                                8 Common Robots.txt Issues And How To Fix Them
                              • Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website

                                Cloudflare’s AI Audit dashboard allows you to easily understand how AI companies and services access your content. AI Audit gives a summary of request counts broken out by bot, detailed path summaries for more granular insights, and the ability to filter by categories like AI Search or AI Crawler. Today, we're going one step further. You can now quickly see which AI services are honoring your robo

                                  Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website
                                • Googleクローラーの技術ドキュメントが再構成される、robots.txtブロックの影響範囲を追加

                                  [レベル: 上級] クローラーについて解説する検索セントラルの技術ドキュメントを Google は再構成しました。 独立したページにセクションを分割 全体的な内容に大きな変更はありませんが、複数のページに分割しました。 ドキュメントが長くなり過ぎて、情報をこれ以上追加するのが難しくなってきたからです。 次の3ページを新たに新設しました。 Google’s common crawlers(一般的なクローラー) Google Special-Case Crawlers(特殊なケース用のクローラー) Google User-Triggered Fetchers(ユーザー トリガー フェッチャー) これらのページは以前は、概要ページのセクションとして 1 ページにまとまっていましたが独立したページに移動しました。 なお、この記事を書いている時点では、日本語ページは未更新でまだ分割されていません。

                                    Googleクローラーの技術ドキュメントが再構成される、robots.txtブロックの影響範囲を追加
                                  • アクションURLのクロールをrobots.txtでブロックするべき、Googleが推奨

                                    [レベル: 上級] アクション系の URL に対しては robots.txt でクロールを拒否することを Google の Gary Illyes(ゲイリー・イリース)氏が推奨しました。 クロール過多によるサーバーリソースの消費を防ぐため イリース氏は LinkedIn で次のように投稿しました。 アクション系 URL のクロールを禁止することを強くお勧めする。クローラーは、オーガニックで非遺伝子組み換えのアロマキャンドルを購入することも、ウィッシュリストに関心を持つこともない。 クロールに関するよくある苦情は、クロールが多すぎてサーバーのリソースを使いすぎているというものだ(ただし、それ以外の問題を引き起こすことはない)。苦情が出たサイトから何をクロールしているかを見ると、あまりにも頻繁に「カートに入れる」や「ウィッシュリストに追加」などのアクション URL であることがわかる。こうした

                                      アクションURLのクロールをrobots.txtでブロックするべき、Googleが推奨
                                    • Googleがrobots.txtでサポートするフィールドは4つだけ、それ以外は無視

                                      [レベル: 中級] robots.txt のドキュメントに記載されていないフィールドはサポートされていないことを Google は明確化しました。 Google がサポートする robots.txt フィールドは 4 つだけ robots.txt ドキュメントの「Syntax(構文)」セクションに次の注釈が追加されました。 Google supports the following fields (other fields such as crawl-delay aren’t supported): 太字強調した部分です。 日本語ドキュメントはまだ更新されていません。 日本語に訳すとこうなります。 Google は次のフィールドをサポートしています(crawl-delay などその他のフィールドはサポートされていません)。 Google が robots.txt でサポートするフィールドは

                                        Googleがrobots.txtでサポートするフィールドは4つだけ、それ以外は無視
                                      • US Micro Robots Market Research Insights 2025 | MRFR

                                        ✉ info@marketresearchfuture.com 📞 +1 (855) 661-4441(US) 📞 +44 1720 412 167(UK) 📞 +91 2269738890(APAC) Global Market Outlook In-depth analysis of global and regional trends Analyze and identify the major players in the market, their market share, key developments, etc. To understand the capability of the major players based on products offered, financials, and strategies. Identify disrupting pro

                                        1