タグ

ブックマーク / www.geek.sc (2)

  • 大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

    robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で

    大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
  • ブログをTwitter Cardsに対応させる方法

    Twitter Cardsとは Twitter Cardsとは、最近Twitterが始めた新しいツイート表示形式のことです。今まで、リンク付きのツイートの詳細は、以下のような感じで見えていたと思いますが、 これが以下のように、リンク先のタイトル、概要、アイキャッチ画像、書いた人のTwitterアカウントが表示させることができるようになりました。 Twitter Cradsに自分のブログなどのWEBサイトを対応させる方法 Twitter Cardsに自分のWEBサイトを対応させる方法は簡単です。HTMLのヘッダー情報に以下の例のようなHTMLが記述されていれば対応は完了です。facebookに概要を表示させるfacebook OGPタグの書き方と似ていますね。 [html]>meta name=”twitter:card” content=”summary”> meta name=”twit

    ブログをTwitter Cardsに対応させる方法
  • 1