タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

robots.txtに関するinoueyuworksのブックマーク (3)

  • How to configure robots.txt to allow everything?

    inoueyuworks
    inoueyuworks 2022/03/07
    `User-agent: *`; `Disallow:` とするのが、「allow all」な感じの robots.txt であって、かつ、すべての robots.txt でサポートする形式。
  • robots.txtでAllowを使うのはどんな時?

    [対象: 中〜上級] 調べる機会があったので忘備録も兼ねた「robots.txtの“Allow”の使い方」の解説が今日のテーマです。 robots.txtは検索エンジンのクローラのアクセスを拒否するために使用します。 英語で「許可しない」を意味する“Disallow”という命令をアクセスを拒否するために用います。 たとえば、以下のようにrobots.txtに記述したとします(ユーザーエージェントを指定する記述は省略してます)。 Disallow: /private/ この場合は、ルートディレクトリのなかにある「private」ディレクトリに含まれているすべてのコンテンツへのクローラのアクセスをブロックできます。 ところが英語で「許可する」を意味する“Allow”という命令をrobots.txtで使用することができます。 よくあるのが次のようなrobots.txtです。 User-Agent

    robots.txtでAllowを使うのはどんな時?
    inoueyuworks
    inoueyuworks 2022/03/07
    1. Allow は google 拡張 2. google 拡張においては、 Disallow と Allow の双方がマッチした時、最長一致させた方を優先する。
  • robots.txtでのnoindexをGoogleが完全にサポート終了、2019年9月1日から

    [レベル: 上級] robots.txt の noindex 構文のサポートを終了することを Google は告知しました。 REP のインターネット標準化にともなう決定です。 機能していたが未サポートだった robots.txt の noindex クローラのクロールを拒否するために robots.txt では Disallow 構文を用います。 User-agent: * Disallow: /dontcrawl.html Google では、クロールではなくインデックスを拒否するために Noindex 構文が使えていました。 User-agent: Googlebot Noindex: /dontindex.html HTML の head セクションで使える noindex robots meta タグと同じ働きをします。 しかし、robots.txt での noindex を G

    robots.txtでのnoindexをGoogleが完全にサポート終了、2019年9月1日から
    inoueyuworks
    inoueyuworks 2022/03/02
    robots.txt での Noindex ディレクティブは無効になったので、普通に noindex のメタタグを付与する形が妥当。
  • 1