並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 25 件 / 25件

新着順 人気順

robots.txtの検索結果1 - 25 件 / 25件

  • X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

    robots.txtでは正規表現は使えない――改めて技術を正しく理解したいと心から思うミスがX(Twitter)のサイトに見付かった。今回のピックアップでは、この件に加えて、複数サイトを管理している人向けの便利なrobots.txt管理術をお届けする。 もちろん、ほかにもSEO情報をしっかりまとめている。ローカルSEOのテクニックと基本情報、デスクトップ用Googlebot終了、著者情報とSEO、生成AIなどなど、今回もあなたのSEO力アップに役立つ情報をお届けする。 X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)複数サイト管理者に朗報: robots.txtはリダイレクトでまとめて管理できるローカルSEOで上位表示するためのTIPS×8ローカルSEOスターターガイド(基本版)2024年6月のグーグル検索オフィスアワー: コピーコンテンツが正規UR

      X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
    • 生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

      Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク

        生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
      • 「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張

        生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv

          「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
        • グーグルのAIに自社コンテンツを学習させたくない! Bardをブロックするrobots.txt指定【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

          「ChatGPTにもBardにも、生成AIの学習にウチのコンテンツを使わせない!」そんなあなたに朗報。GPTBotに加えて、グーグルのAIによる学習を防ぐ方法が公開された。 ChatGPTとBard(とVertex AI)による学習をまとめて禁止するrobots.txtの指定も紹介する。 ピックアップ意外にも、今回も良ネタが多数。 9月のヘルプフル コンテンツ アップデートの特徴「広告UX」と「実経験」、10月のコア アップデートとスパムアップデートなど、グーグル情報が3件。 さらに検索結果でのサイト名表示、Googleビジネスプロフィールの新機能などなど、グーグル最新事情から、SEO以外にも役立つ情報まで、今週もあなたに役立つネタを吸収していただきたい。 グーグルのAIに自社サイトのコンテンツを学習させたくない! Bardをブロックするrobots.txt指定2023年9月のヘルプフル

            グーグルのAIに自社コンテンツを学習させたくない! Bardをブロックするrobots.txt指定【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
          • Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も

            生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。 Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones) https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-

              Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も
            • ChatGPTのウェブクローラはGPTBot。robots.txtでブロック可能

              [レベル: 上級] 管理するサイトのコンテンツを ChatGPT に利用されるのを防ぐために、ChatGPT が運用するクローラの GPTBot を robots.txt でブロックできます。 ChatGPT のウェブクローラは GPTBot ChatGPT の開発/提供元である OpenAI は、ウェブクローラに関係する技術ドキュメントを最近新たに公開しました。 OpenAI が使用するクローラのユーザーエージェント (UA: User Agenet) は GPTBot です。 完全な UA 文字列は次のとおりです。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) GPTBot の用途は次のとおりです。 Web pages craw

                ChatGPTのウェブクローラはGPTBot。robots.txtでブロック可能
              • 8 Common Robots.txt Issues And How To Fix Them

                Webinar [Google March 2024 Update] How To Thrive: Content, Link Building & SEO Whether you're a seasoned SEO professional, a budding content creator, or anyone in between, this webinar will help you weather the changes in Google's algorithms and capitalize on them for sustained success. Register For Free Webinar [Google March 2024 Update] How To Thrive: Content, Link Building & SEO Whether you're

                  8 Common Robots.txt Issues And How To Fix Them
                • 【WordPress】OpenAIからのクローラーをrobots.txtでブロックしてみた【プラグイン】 - ネタフル

                  対話型生成AIのChatGPTを提供するOpenAIのクローラーが、あまりよろしくない挙動をしているというのを見かけたので、WordPressのプラグインを用いてrobotsを記述し、OpenAIからのクローラーをブロックしてみたという話です。 OpenAIのクローラーの挙動がよろしくない? 見かけたのはこちらのツイートです。 うちのサイト攻撃されてる? と思ってUA見たらOpenAIからのクローラーだった。 自動BANされまくってるのに無尽蔵のIPアドレスで以ってゲートオブバビロン並みに四方八方から矢継ぎ早にアクセスし続けてくるの、宗旨替えして大嫌いになりそう。 Googleクローラーと違ってメリットもないし。 — バフェット・コード (@buffett_code) October 18, 2023 いずれにせよ学習用に利用されるだけで「Googleクローラーと違ってメリットもない」とい

                    【WordPress】OpenAIからのクローラーをrobots.txtでブロックしてみた【プラグイン】 - ネタフル
                  • robots.txtのステータスを確認できる新しいレポートがSearch Consoleに追加される

                    [レベル: 中級] robots.txt の状態を確認するレポートが Search Console に追加されました。 これにともない、robots.txt テスターはまもなく終了します。 robots.txt レポート robots.txt レポートには、Search Console の「設定」からアクセスします。 「クロール」セクションに「robots.txt」が加わっています。 「レポートを開く」で表示できます。 robots.txt レポートを利用できるのはトップレベルドメインのプロパティとドメインプロパティです。 サブディレクトリで登録しているプロパティは利用できません。 📝すずき補足:https://www.suzukikenichi.com は利用可能。https://www.suzukikenichi.com/blog は利用不可。 robots.txt のステータス G

                      robots.txtのステータスを確認できる新しいレポートがSearch Consoleに追加される
                    • アクションURLのクロールをrobots.txtでブロックするべき、Googleが推奨

                      [レベル: 上級] アクション系の URL に対しては robots.txt でクロールを拒否することを Google の Gary Illyes(ゲイリー・イリース)氏が推奨しました。 クロール過多によるサーバーリソースの消費を防ぐため イリース氏は LinkedIn で次のように投稿しました。 アクション系 URL のクロールを禁止することを強くお勧めする。クローラーは、オーガニックで非遺伝子組み換えのアロマキャンドルを購入することも、ウィッシュリストに関心を持つこともない。 クロールに関するよくある苦情は、クロールが多すぎてサーバーのリソースを使いすぎているというものだ(ただし、それ以外の問題を引き起こすことはない)。苦情が出たサイトから何をクロールしているかを見ると、あまりにも頻繁に「カートに入れる」や「ウィッシュリストに追加」などのアクション URL であることがわかる。こうした

                        アクションURLのクロールをrobots.txtでブロックするべき、Googleが推奨
                      • GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.

                        This is an open list of web crawlers associated with AI companies and the training of LLMs to block. We encourage you to contribute to and implement this list on your own site. A number of these crawlers have been sourced from Dark Visitors and we appreciate the ongoing effort they put in to track these crawlers. If you'd like to add information about a crawler to the list, please make a pull requ

                          GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.
                        • PDFのインデックス登録を防ぐためにはRobots.txtでは不十分な場合がある | テクノロジー観測所

                          テクノロジー観測所 Technology Observatory(テクノロジー観測所)は"初心者を卒業した(い)"人を対象とする情報サイトです。 PDFのインデックス登録を防ぐためにはRobots.txtでは不十分な場合がある 公開日:2024.03.28 更新日:2024.04.06 Tom GSC SEO SEO 0 Webサイトによっては、資料やホワイトペーパーなどを配布する目的でPDFファイルをサーバーに格納し、リンクしているケースがあります。 しかし様々な理由から、このPDFに直接訪問してほしくないため、PDFのインデックスを避けたいと考えていることがあります。 たとえば、PDFはHTMLではないので、直接訪問してしまうと他のページに遷移できず、離脱するしかないというのを嫌うようなケースとか。 そこでRobots.txtと正規表現を使って「Disallow: *.pdf$」みたい

                          • 【Python×SEO】robots.txtテスターが使えなくなったので複数URLの一括チェックができるコードを作った|悠生@SEO

                            Search Consoleのrobots.txtテスターは2023年12月12日に廃止されてしまいました。 その後Search Consoleには「robots.txtレポート」という機能が追加されましたが、以前のrobots.txtテスターのように個別URLをチェックする機能がなく、「ちょっと求めてるツールじゃないんだよな感」があります。 一応、個別URLのクロール可否を確認する方法として、Search ConsoleのURL検査もありますが、1URLあたりのチェックに数十秒~数分が必要です。大量のURLをチェックするには不向きです。 またPythonのurllibにはrobots.txtを処理するためのurllib.robotparserというものも存在しますが、私が確認したところrobots.txtの処理方法がGooglebotの挙動とは異なっていたため、こちらもそのままSEOには

                              【Python×SEO】robots.txtテスターが使えなくなったので複数URLの一括チェックができるコードを作った|悠生@SEO
                            • Google-Extendedをrobots.txtでブロックしても検索のインデックスやランキングには影響なし

                              [レベル: 上級] Google-Extended クローラーに関する技術ドキュメントを Google は更新しました。 Google-Extended は、Google の生成 AI がウェブページをトレーニングデータとして利用することを制御するときに指定するユーザーエージェントです。 対象の生成 AI を Bard から Gemini へ変更 Google-Extended の制御対象は、以前は次の 2 つの生成 AI でした。 Bard Vertex AI の生成 API 現在は次のようになっています。 Gemini アプリ ※Gemini アプリについてはこちらを参照 Vertex AI の生成 API Bard が Gemini へと名称変更したので、この更新は自然な流れです。 Google-Extended 制御は検索には影響せず 次の一文がドキュメントに追加されました。 Go

                                Google-Extendedをrobots.txtでブロックしても検索のインデックスやランキングには影響なし
                              • 「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張

                                生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv

                                  「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
                                • robots.txtって何? 正しく使ってSEOのパフォーマンスの向上を! - Lifrell

                                  クロールを防ぎたいサイト内のコンテンツを管理するためのファイルがrobots.txtです。 このファイルを適切に運用することにより、価値のあるコンテンツが先にクロールされるので、サイトのSEOの質も向上すると考えられています。 robots.txtを導入していない場合、不要なページも検索エンジンにクロールさせてしまい、サイトのクオリティが低下するリスクが考えられます。 この記事を参考に、robots.txtの基本的な機能を把握し、正確な設定を施してください。 robots.txtは、取得を避けたいコンテンツを、Googleなどの検索エンジンがクロールしないようにするファイルを指すものです。 一般的に、クロールは良いこととされているため、「ウェブページ上の全情報がクロールされるべきではないか?」と疑問に思う方も少なくないでしょう。 しかし、会員専用の情報やオンラインショップのカート、またはシ

                                    robots.txtって何? 正しく使ってSEOのパフォーマンスの向上を! - Lifrell
                                  • 生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

                                    Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク

                                      生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
                                    • robots.txtとは?書き方や設定方法を解説|大阪のホームページ制作会社セブンデザイン

                                      robots.txtとは、サーチエンジンの情報収集プログラムになるクローラーを制御することができるテキストファイルのことを言います。 robots.txtを適切に作成して設置することで、サーチエンジンの情報収集効率を高めることが可能です。 当ページでは、robots.txtとは何かや、書き方、4つの要素、設定方法、確認法、注意点を解説します。 robots.txtとは、ホームページの情報収集を行うサーチエンジンのクローラーの動作をコントロールするために利用されるテキストファイルのことを言います。 上記は当社のrobots.txtになり、主な利用方法は、検索結果に出てきてほしくないページをrobots.txtに記述することで、サーチエンジンは該当ページにアクセスすることができなくなり、検索結果に表示されることがなくなります。 サーチエンジン全般だけではなく、例えば、Googleでは出てきて欲

                                      • 生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

                                        Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク

                                          生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
                                        • robots.txtを取得しクロール拒否されていないかチェック① - Qiita

                                          概要 robots.txtを取得しクロール拒否されていないかをチェックするプログラムをPHPで作成したいと思います。 今回は、robots.txtを取得する処理を作成します。 次回は、クロール拒否されていないかチェックする処理を作成します。 前提 robots.txtとは 検索エンジンのクローラーなどに、アクセスしていいURLを伝えるファイルです。 クローラーを作成する場合は、robots.txtに準ずる必要があります。 robots.txtの場所 基本的にURLドメインの/直下に置くことになっているので、Qiitaのrobots.txtは、https://qiita.com/robots.txtにあります。 中身の説明は次回とさせていただきます。 コーディング 処理内容 プログラムは汎用的に作ろうと思うので、robots.txtを直接指定しなくても、どんなURLでもrobots.txtの

                                            robots.txtを取得しクロール拒否されていないかチェック① - Qiita
                                          • X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

                                            robots.txtでは正規表現は使えない――改めて技術を正しく理解したいと心から思うミスがX(Twitter)のサイトに見付かった。今回のピックアップでは、この件に加えて、複数サイトを管理している人向けの便利なrobots.txt管理術をお届けする。 もちろん、ほかにもSEO情報をしっかりまとめている。ローカルSEOのテクニックと基本情報、デスクトップ用Googlebot終了、著者情報とSEO、生成AIなどなど、今回もあなたのSEO力アップに役立つ情報をお届けする。 X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)複数サイト管理者に朗報: robots.txtはリダイレクトでまとめて管理できるローカルSEOで上位表示するためのTIPS×8ローカルSEOスターターガイド(基本版)2024年6月のグーグル検索オフィスアワー: コピーコンテンツが正規UR

                                              X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
                                            • SEO SIMPLE PACK代替:The SEO Frameworkプラグインのrobots.txtを無効化する

                                              軽量な国産SEOプラグインとして人気があるSEO SIMPLE PACKがあります。 SEO SIMPLE PACKはSWELL作者が作ってるのでSWELLユーザーは使っている人が多いでしょう。 最近ではSWELLの開発も停滞気味で、SWELLのフォーラムにも作者が出てこなくなって久しいのですが、SEO SIMPLE PACKプラグインが公開停止になっていました。 このプラグインの公開は2024年6月21日に停止されており、ダウンロードできません。 この公開停止は一時的なもので、完全なレビューを待っている状態です。 SEO SIMPLE PACKとてもシンプルなSEOプラグインです。ページごとのmetaタグやOGPタグを簡単に設定・カスタマイズできます。ja.wordpress.org SEO SIMPLE PACKは国産で不要な機能がついてないので軽量なのが魅力です。 同じように軽量なS

                                                SEO SIMPLE PACK代替:The SEO Frameworkプラグインのrobots.txtを無効化する
                                              • Google-Extendedユーザーエージェントをrobots.txtでブロックしてもSGEによるコンテンツ利用は防げない

                                                [レベル: 上級] ウェブ検索に影響を与えることなく、管理サイトのコンテンツを SGE が利用することを防ぐ手段はありません。 Google-Extended は SGE を対象にしません。 SGE は検索の一部 Bard と、Vertex AI の Generative AI API がサイトのコンテンツを学習データとして使わないようにするために、Google-Extended というユーザーエージェント トークンを Google は先日導入しました。 Google-Extended を robots.txt でブロックすることによりコンテンツ利用を拒否できます。 しかし、Google-Extended の指定は SGE には効果を及ぼさないとのことです。 Google の広報は Search Engine Roundtable に次のようにコメントを出しました。 SGE は検索実験であ

                                                  Google-Extendedユーザーエージェントをrobots.txtでブロックしてもSGEによるコンテンツ利用は防げない
                                                • robots.txtを取得しクロール拒否されていないかチェック① - Qiita

                                                  概要 robots.txtを取得しクロール拒否されていないかをチェックするプログラムをPHPで作成したいと思います。 今回は、robots.txtを取得する処理を作成します。 次回は、クロール拒否されていないかチェックする処理を作成します。 前提 robots.txtとは 検索エンジンのクローラーなどに、アクセスしていいURLを伝えるファイルです。 クローラーを作成する場合は、robots.txtに準ずる必要があります。 robots.txtの場所 基本的にURLドメインの/直下に置くことになっているので、Qiitaのrobots.txtは、https://qiita.com/robots.txtにあります。 中身の説明は次回とさせていただきます。 コーディング 処理内容 プログラムは汎用的に作ろうと思うので、robots.txtを直接指定しなくても、どんなURLでもrobots.txtの

                                                    robots.txtを取得しクロール拒否されていないかチェック① - Qiita
                                                  • [ChatGPT] robots.txt によるクローリングの制御方法

                                                    概要ChatGPTによるWebサイトへのクローリングを制御したい場合、robots.txtを利用して制御できる。 ChatGPTは、クローリングとユーザーブラウジングのために、2つの別々のユーザーエージェントを持っている。 GPTBotChatGPT-User現在、オプトアウトシステムは両方のユーザーエージェントを同じように扱っているので、片方のエージェントに対するrobots.txtの不許可(Disallow)は両方に適用されるようである。 User-agent: GPTBot Disallow: / https://platform.openai.com/docs/gptbot User-agent: ChatGPT-User Disallow: / https://platform.openai.com/docs/plugins/bot

                                                      [ChatGPT] robots.txt によるクローリングの制御方法
                                                    1