タグ

2022年3月2日のブックマーク (3件)

  • robots.txtでのnoindexをGoogleが完全にサポート終了、2019年9月1日から

    [レベル: 上級] robots.txt の noindex 構文のサポートを終了することを Google は告知しました。 REP のインターネット標準化にともなう決定です。 機能していたが未サポートだった robots.txt の noindex クローラのクロールを拒否するために robots.txt では Disallow 構文を用います。 User-agent: * Disallow: /dontcrawl.html Google では、クロールではなくインデックスを拒否するために Noindex 構文が使えていました。 User-agent: Googlebot Noindex: /dontindex.html HTML の head セクションで使える noindex robots meta タグと同じ働きをします。 しかし、robots.txt での noindex を G

    robots.txtでのnoindexをGoogleが完全にサポート終了、2019年9月1日から
    inoueyuworks
    inoueyuworks 2022/03/02
    robots.txt での Noindex ディレクティブは無効になったので、普通に noindex のメタタグを付与する形が妥当。
  • 存在しない404エラーページがGoogleのインデックスからなかなか消えないのはなぜ?

    [対象: 全員(一部、上級)] 404のURLを自然に削除するのにGoogleはどうしてそんなに時間がかかるのですか? 上の質問にGoogleのMatt Cutts(マット・カッツ)氏が回答しました。 理論的には、404は一時的なものということが、ともするとありえる。ページがなくなったとしても後で戻ってくるかもしれない。 このページは完全になくなってもう絶対に戻ってこないと当にシグナルを送りたいなら、技術的には410と呼ばれるHTTPステータスコードがある。だけど、少なくとも2007年に最後にチェックしたときには僕たちは両方とも実質的に同じように扱っていた。 どうしてそんな時間がかかるかという題に戻ると、ウェブマスターはちょっと変わったことをすることがあるんだ。 墓穴を掘るのをときどき見ることがある。たとえば(誤って)検索結果からサイトを完全に削除してしまったり、サイトを停止するときに

    存在しない404エラーページがGoogleのインデックスからなかなか消えないのはなぜ?
    inoueyuworks
    inoueyuworks 2022/03/02
    404 は、「そのアクセスのタイミングで見つからなかった」の意味なので、本当に削除されたのかが分からない。よって、 crawler はその後も定期的にクロールしにくる。
  • HTTPステータスコードの404と410の扱いをGoogleは今は微妙に区別していた

    [対象: 上級] Googleは、HTTPステータスコードの404と410を現在は区別して取り扱うようになっているようです。 そうは言っても404と410の差異は非常に小さなものになります。 英語版のGoogleウェブマスター向け公式ヘルプフォーラムで投稿のあった質問に対してGoogle社員のJohn Mueller(ジョン・ミューラー)氏が念入りに確認した結果明らかになりました。 we are now treating 410s slightly differently than 404s. In particular, as I mentioned above, when we see a 404 we’ll sometimes want to confirm it to make sure that it’s a permanent removal. With a 410 HTTP

    HTTPステータスコードの404と410の扱いをGoogleは今は微妙に区別していた
    inoueyuworks
    inoueyuworks 2022/03/02
    410: 管理者が意図してなくなったことを示す, 404: とにかくリソースがひとまず見つからなかったことを示す; 結果、 410 の方が、 recrawl の頻度が下がる。