タイトル「Robots」を検索 - はてなブックマーク

1 - 19 件 / 19件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Robotsの検索結果1 - 19 件 / 19件

AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた | DevelopersIO
- 161 users
- dev.classmethod.jp
- テクノロジー
- 2025/02/24
AWS WAF のBotControlルールにおいて、AIカテゴリに分類されるスパイクアクセスが発生。動的生成される記事ページへのリクエストが、1時間あたり5万件、ピーク時には1分間に1500件記録されていました。当サイトで公開中の5万件強の全記事数に匹敵するリクエストが発生した原因の調査と、実施した対策について紹介します CloudWatchメトリクス確認原因を特定するため、AWS WAFのメトリクスを分析しました bot:category AI の急増 AIカテゴリのリクエスト数が、1時間あたり5万件まで顕著に増加しました。他のカテゴリ（search_engine: Google、Bing など、social_media: X、Facebook など）には大きな変動は見られませんでした。 LabelNamespace="awswaf:managed:aws:bot-contr
- aws
- あとで読む
- AI
- security
- セキュリティ
- WAF
- ネットワーク
- web
- network
X（Twitter）のrobots.txtがおかしい（このミスはちょっと恥ずかしいかも）【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
- 104 users
- webtan.impress.co.jp
- テクノロジー
- 2024/07/12
robots.txtでは正規表現は使えない――改めて技術を正しく理解したいと心から思うミスがX（Twitter）のサイトに見付かった。今回のピックアップでは、この件に加えて、複数サイトを管理している人向けの便利なrobots.txt管理術をお届けする。もちろん、ほかにもSEO情報をしっかりまとめている。ローカルSEOのテクニックと基本情報、デスクトップ用Googlebot終了、著者情報とSEO、生成AIなどなど、今回もあなたのSEO力アップに役立つ情報をお届けする。 X（Twitter）のrobots.txtがおかしい（このミスはちょっと恥ずかしいかも）複数サイト管理者に朗報： robots.txtはリダイレクトでまとめて管理できるローカルSEOで上位表示するためのTIPS×8ローカルSEOスターターガイド（基本版）2024年6月のグーグル検索オフィスアワー：コピーコンテンツが正規UR
- !!
- Twitter
- あとで読む
- web
- 情報
検索結果に表示させない技術 robots.txt と X-Robots-Tag を正しく組み合わせよう - Techtouch Developers Blog
- 89 users
- tech.techtouch.jp
- テクノロジー
- 2025/02/27
はじめに robots.txt robots.txt の基本 robots.txt の限界 X-Robots-Tag X-Robots-Tag の仕様 X-Robots-Tag と robots.txt の組み合わせに注意 X-Robots-Tag の限界さいごに参照はじめにこんにちは。SRE マネージャーの izzii です。最近会社でオフィスの引越しがありました。前のオフィスはコワーキングスペースで複数社で空間を分割するようなオフィスだったのですが、フロア丸々テックタッチというのが新鮮です！エレベーターを上がると会社のロゴが大きく見えるのが嬉しい！さて、私は一年ほど前にウェブセキュリティの文脈でクローラーについて調査することがありました。そこで robots.txt や meta tag に関する不正確であったり古い記事が、検索の上位に紛れ込んでいることに気がつきました。同
- 検索
- あとで読む
- web
- blog
- Web制作
- 技術
- google
生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
- 61 users
- gigazine.net
- テクノロジー
- 2024/06/17
Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク
- 人工知能
- AI
- 倫理
- techfeed
- あとで読む
- Web
- gigazine
- search
- 検索
robots.txtによるクローリング禁止が急増 — AIがWeb全体をクローズドにしつつある
- 36 users
- techfeed.io
- テクノロジー
- 2024/09/06
9月1日、海外のテックメディアIEEE Spectrumで「AIがウェブクローリングをめぐる戦いを巻き起こす(AI Has Created a Battle Over Web Crawling)」と題した記事が公開された。この記事では、ジェネレーティブAIの進化とそれに伴うウェブクローリングに関する論争について、AI研究者グループ「Data Provenance Initiative」のリードリサーチャーであるシェイン・ロングプレ（Shayne Longpre）氏へのインタビューを通じて詳しく解説されている。ジェネレーティブAIとデータ収集の問題ジェネレーティブAIは、膨大なデータセットを使用して訓練されることで、驚異的なパフォーマンスを発揮するが、そのデータセットの大部分は、私たちが日常的にインターネット上に公開している情報で構成されている。これには、ブログ投稿、ビデオコンテンツ、S
WebサイトのAI学習利用を拒否するrobots.txt拡張の議論 - ASnoKaze blog
- 33 users
- asnokaze.hatenablog.com
- テクノロジー
- 2024/10/24
WebページがAIにより学習されないように、拒否できるようにしようという議論があります。具体的には、ai.txtやrobots.txtなどを使って拒否する提案が出ています。 ai.txt (spawing) https://spawning.ai/ai-txt で定義されている。 ai.txtの形で配置する例: User-Agent: * Disallow: *.txt Disallow: *.pdf Disallow: *.doc Disallow: *.docx Disallow: *.odt (略) robots.txt のAI向け拡張 (Microsoft) Microsoftの方らが『Robots Exclusion Protocol Extension to manage AI content use』という提案をIETFに提出しているという目的ベースで許可・拒否が出来
- 人工知能
- AI
- Microsoft
- Google
- あとで読む
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
- 33 users
- gigazine.net
- テクノロジー
- 2024/06/24
生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv
- AI
- 人工知能
- illust
- trouble
- search
【ロボットに倫理を教える（Moral Machines Teaching Robots Right from Wrong）】レビュー - sugarless time
- 8 users
- www.sugarless-time.com
- 暮らし
- 2024/09/20
前書き目次レビューまとめおまけ前書き以前【ロボット法】についてのレビューを投稿しました。 www.sugarless-time.com 今回もそっち関係の書籍レビューになります。【ロボット法】は2017年に初版発行、こちらの初版(翻訳版)は2019年発行ですが、翻訳前の初版は2009年に発行されており、今から15年も前のものになります。目次すべての章についてレビューしたいくらいなのですが、そんな大作を書くのも大変なので、本書の目次を掲載します。目次を追うだけでどのような本かは想像できると思いますので参考にしてください。序章第1章なぜ機械道徳なのか？路面電車の運転手とロボットのエンジニア倫理的な殺人機械？差し迫った危険第2章道徳の工学それはエンジニアの義務なのか？ムーアによる倫理的エージェントの分類第3章人類はコンピュータに道徳的な意思決定をしてほし
AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt
- 5 users
- arstechnica.com
- テクノロジー
- 2025/01/29
View of an insect dissolving in a carnivorous pitcher plant, which inspired an AI tarpit called Nepenthes. Credit: Jerry Redfern / Contributor | LightRocket View of an insect dissolving in a carnivorous pitcher plant, which inspired an AI tarpit called Nepenthes. Credit: Jerry Redfern / Contributor | LightRocket Last summer, Anthropic inspired backlash when its ClaudeBot AI crawler was accused of
「お前ら全部ゆるさん」Xのrobots.txtを覗いてみたけど、AI学習ふくめて汎用クローラー片っ端からはじいてるね
- 5 users
- posfie.com
- テクノロジー
- 2024/11/16
のうめん🏗️👺 @nomen_machine Xのrobots.txtを覗いてみたけど、AI学習含めて汎用クローラー片っ端から弾いてるね Xに投稿されたポストは完全にGrokだけに活かすつもりだ pic.x.com/qGyq7AK5et 2024-11-15 17:49:14
- AI
- セキュリティ
Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も
- 5 users
- gigazine.net
- テクノロジー
- 2024/07/30
生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。 Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones) https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-
- 人工知能
- ai
- web
Are Japanese anime robots isometric or allometric?
- 4 users
- jgeekstudies.org
- 学び
- 2024/04/27
Sangjin Ryu1 & Kiyotaka Obunai2 1Department of Mechanical and Materials Engineering, University of Nebraska-Lincoln, Lincoln, NE, USA. 2Department of Mechanical and Systems Engineering, Doshisha University, Kyoto, Japan. Emails: sryu2 (at) unl (dot) edu; kiobunai (at) mail (dot) doshisha (dot) ac (dot) jp Download PDF Robots have been a very popular theme of Japanese animation, or anime, since the
OpenAI's Rules for Model Behavior, Better Brain-Controlled Robots, and more
- 4 users
- www.deeplearning.ai
- テクノロジー
- 2024/05/17
Dear friends, In the last couple of days, Google announced a doubling of Gemini Pro 1.5's input context window from 1 million to 2 million tokens, and OpenAI released GPT-4o, which generates tokens 2x faster and 50% cheaper than GPT-4 Turbo and natively accepts and generates multimodal tokens. I view these developments as the latest in an 18-month trend. Given the improvements we've seen, best pra
- あとで読む
8 Common Robots.txt Issues And How To Fix Them
- 4 users
- www.searchenginejournal.com
- テクノロジー
- 2024/04/14
Partner Resource How to Build a Successful SEO Consultancy. Watch this exclusive episode of MozPod for strategies that can transform your consultancy, from defining your branding to finding your first clients. Download Now Guide How AI Can Reshape Your Ecommerce Marketing in 2025 In this on-demand webinar, discover how AI can unlock scalable growth and automate key processes in your ecommerce busi
- あとで読む
Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website
- 3 users
- blog.cloudflare.com
- テクノロジー
- 2024/12/11
Cloudflare’s AI Audit dashboard allows you to easily understand how AI companies and services access your content. AI Audit gives a summary of request counts broken out by bot, detailed path summaries for more granular insights, and the ability to filter by categories like AI Search or AI Crawler. Today, we're going one step further. You can now quickly see which AI services are honoring your robo
- ai
Googleクローラーの技術ドキュメントが再構成される、robots.txtブロックの影響範囲を追加
- 3 users
- www.suzukikenichi.com
- テクノロジー
- 2024/09/18
[レベル: 上級] クローラーについて解説する検索セントラルの技術ドキュメントを Google は再構成しました。独立したページにセクションを分割全体的な内容に大きな変更はありませんが、複数のページに分割しました。ドキュメントが長くなり過ぎて、情報をこれ以上追加するのが難しくなってきたからです。次の3ページを新たに新設しました。 Google’s common crawlers（一般的なクローラー） Google Special-Case Crawlers（特殊なケース用のクローラー） Google User-Triggered Fetchers（ユーザートリガーフェッチャー）これらのページは以前は、概要ページのセクションとして 1 ページにまとまっていましたが独立したページに移動しました。なお、この記事を書いている時点では、日本語ページは未更新でまだ分割されていません。
- seo
アクションURLのクロールをrobots.txtでブロックするべき、Googleが推奨
- 3 users
- www.suzukikenichi.com
- テクノロジー
- 2024/06/15
[レベル: 上級] アクション系の URL に対しては robots.txt でクロールを拒否することを Google の Gary Illyes（ゲイリー・イリース）氏が推奨しました。クロール過多によるサーバーリソースの消費を防ぐためイリース氏は LinkedIn で次のように投稿しました。アクション系 URL のクロールを禁止することを強くお勧めする。クローラーは、オーガニックで非遺伝子組み換えのアロマキャンドルを購入することも、ウィッシュリストに関心を持つこともない。クロールに関するよくある苦情は、クロールが多すぎてサーバーのリソースを使いすぎているというものだ（ただし、それ以外の問題を引き起こすことはない）。苦情が出たサイトから何をクロールしているかを見ると、あまりにも頻繁に「カートに入れる」や「ウィッシュリストに追加」などのアクション URL であることがわかる。こうした
Googleがrobots.txtでサポートするフィールドは4つだけ、それ以外は無視
- 3 users
- www.suzukikenichi.com
- テクノロジー
- 2024/10/08
[レベル: 中級] robots.txt のドキュメントに記載されていないフィールドはサポートされていないことを Google は明確化しました。 Google がサポートする robots.txt フィールドは 4 つだけ robots.txt ドキュメントの「Syntax（構文）」セクションに次の注釈が追加されました。 Google supports the following fields (other fields such as crawl-delay aren’t supported): 太字強調した部分です。日本語ドキュメントはまだ更新されていません。日本語に訳すとこうなります。 Google は次のフィールドをサポートしています（crawl-delay などその他のフィールドはサポートされていません）。 Google が robots.txt でサポートするフィールドは
US Micro Robots Market Research Insights 2025 | MRFR
- 3 users
- www.marketresearchfuture.com
- 学び
- 2024/04/25
✉ info@marketresearchfuture.com 📞 +1 (855) 661-4441(US) 📞 +44 1720 412 167(UK) 📞 +91 2269738890(APAC) Global Market Outlook In-depth analysis of global and regional trends Analyze and identify the major players in the market, their market share, key developments, etc. To understand the capability of the major players based on products offered, financials, and strategies. Identify disrupting pro