タグ

robots.txtに関するjustoneplanetのブックマーク (4)

  • Baidu Japan(バイドゥ株式会社)

  • robots.txtの書き方(保存版) » 海外SEO情報ブログ・メルマガ

    今日は、いつか書こう書こうと思って、そのままにしておいた「robots.txt」にの書き方・書式について書きます。 robots.txtは「ロボッツ・テキスト」、または「ロボット・テキスト」と読みます。 robotではなく、robotsです。 robots.txtはサーチエンジンのクローラ(スパイダー)の、ファイルとディレクトリへのアクセスを制御するために使われます。 「secretsというディレクトリにあるファイルにはすべてアクセスさせたくない」とか、「himitsu.htmlというファイルだけはアクセスさせたくない」という使い方ができます。 「アクセスさせたくない」というのは、「インデックスさせたくない」すなわち「検索結果に表示させたくない」ということです。 「なぜ、検索結果に表示させたくないの?」と疑問に思うかもしれません。 さまざまなケースがあります。 たとえば、URLを自分が教え

    robots.txtの書き方(保存版) » 海外SEO情報ブログ・メルマガ
  • 大手サイトの robots.txt と sitemap をのぞいてみた。 - フジイユウジ::ドットネット

    仕事でとあるサイトの新規構築をしていて、サイトマップインデックスファイルを作ろうと思ったのですが、これ robots.txt に普通の sitemap として記述していいのかどうかわからなかったんですよ。 検索とかしてみたのですが日語の情報がなく。 あ、念のために解説しておくと、検索エンジンのクローラー(ロボット)にサイト構造を伝えるXMLサイトマップっていうのがありまして。 ページ数が多いサイトなんかは、サイトマップインデックスファイルっていうXMLサイトマップの目次みたいなのを作るんですわ。 目次の目次って何だよって感じですが、まあ、ページ数が多いんだから仕方ないんですわ。 Googleの ウェブマスター向けヘルプとか読んでも「 robots.txt には複数のsitemapを記述できるよ」みたいなことだけ書いてある。それをまとめてサイトマップインデックスファイルにした場合はクロール

    大手サイトの robots.txt と sitemap をのぞいてみた。 - フジイユウジ::ドットネット
  • Google: 重複コンテンツはrobots.txtでブロックしてはいけない

    検索結果での非表示、被リンクの分散、クローリング効率の低下、最悪の場合ランキングの下落・インデックスからの消滅など、重複コンテンツはさまざまな悪影響を発生させます。 海外では重複コンテンツは、ブログ・フォーラム・カンファレンスなどで頻繁に取り上げられるトピックですが、日SEO界では、重複コンテンツはあまり話題に上がらないし、興味を持たれていない気がします。 たぶん理由の1つに、重複コンテンツそのものが理解されておらず、何かややこしいもの、自分には関係のないものとしてとらえられているからではないでしょうか。 それはそれで構わないのですが、重複コンテンツによってトラブルにあっていると判断できる問い合わせを何度も受けたのことがあるので、少なくとも重複コンテンツが抱える問題と、対処方法については、SEOに携わる人間なら概要だけでも押さえておくべきだと思います。 重複コンテンツについて、名前くら

    Google: 重複コンテンツはrobots.txtでブロックしてはいけない
  • 1