saka39のブックマーク / 2013年4月11日

saka39 id:saka39

2013年4月11日のブックマーク (3件)

大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
robots.txtとは robots.txtは、検索エンジンのクローラー（bot）に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:（ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能） Crawl-Delay:（クロールの時間間隔を指定） Disallow:（クロールされたくないページやディレクトリを指定） Allow:（Disallowで指定されたディレクトリの小階層で
saka39 2013/04/11
security

seo
リンク
rel=canonicalタグによくある5つの間違い
[対象: 中〜上級] rel=”canonical”タグの正しい使い方とよくある間違いについて英語版のGoogle Webmaster Centaral ブログが説明しました。最近は、日本語版のウェブマスター向け公式ブログの翻訳記事の公開のスピードが早いことが多いので近いうちに日本語でも読めると思います。ですが、負けたくない早く共有したいので紹介します。ただし「よくある間違い」については意訳になっているので全訳は日本語版ブログでの公開を待ってください（とはいえ、重要な点はきちんと説明しているのでご安心を）。ではスタートです。推奨されるrel=”canonical”のベストプラクティス重複するページの大部分のコンテンツが正規化バージョンのページに存在することヒント: そのページの言語が分からないと仮定して、重複ページを正規ページの隣に並べて置いたとき重複ページに書かれている単語
saka39 2013/04/11
seo
リンク
layer8.sh
This domain may be for sale!
saka39 2013/04/11
git
リンク
- 2013年4月13日
- 2013年4月11日
- 2013年4月10日