タグ

2013年4月11日のブックマーク (3件)

  • 大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

    robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で

    大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
  • rel=canonicalタグによくある5つの間違い

    [対象: 中〜上級] rel=”canonical”タグの正しい使い方とよくある間違いについて英語版のGoogle Webmaster Centaral ブログが説明しました。 最近は、日語版のウェブマスター向け公式ブログの翻訳記事の公開のスピードが早いことが多いので近いうちに日語でも読めると思います。 ですが、負けたくない早く共有したいので紹介します。 ただし「よくある間違い」については意訳になっているので全訳は日語版ブログでの公開を待ってください(とはいえ、重要な点はきちんと説明しているのでご安心を)。 ではスタートです。 推奨されるrel=”canonical”のベストプラクティス 重複するページの大部分のコンテンツが正規化バージョンのページに存在すること ヒント: そのページの言語が分からないと仮定して、重複ページを正規ページの隣に並べて置いたとき重複ページに書かれている単語

    rel=canonicalタグによくある5つの間違い
    saka39
    saka39 2013/04/11
  • layer8.sh

    This domain may be for sale!

    saka39
    saka39 2013/04/11