タグ

crawlerに関するftnkのブックマーク (4)

  • Google、Yahoo!、MSがRobots.txtなどREP共通/独自内容公開 | エンタープライズ | マイコミジャーナル

    主要な検索サービスを提供しているGoogleYahoo!Microsoftの3社は3日(米国時間)、Robots Exclusion Protocol (REP)の現状を説明するとともに、それぞれが独自に提供しているディレクティブの説明を公開した。 コンテンツホルダが求めるのはどうすれば検索結果にコンテンツが有利に登場するかだが、逆に特定のコンテンツをどうすれば検索対象から除外できるかも求められている。この場合に使われるのがRobots Exclusion Protocol(REP)だ。robots.txtファイルに指定する方法やMETAタグで指定する方法などがある。これら方法はGoogleYahoo!Microsoftなど主要な検索エンジンサービスでサポートされており、検索エンジンアクセス制御方法のデファクトスタンダードとなっている。 ここ数年、GoogleYahoo!、Mic

  • ウノウラボ Unoh Labs: 携帯サイトとクローラ

    harukiです。 ケータイユーザも検索エンジンから来るユーザも増えています。 そのため、携帯サイトも検索エンジンのクローラへ対応する必要があります。 ・Mobile Link Discoveryの記述を追加する PC用のページのheadタグ内に <link rel="alternate" media="handheld" href="(ケータイURL)" /> の記述を追加するだけです。 Mobile Link Discoveryに対応しているサイトでは、ケータイからのアクセス時に直接アクセスしてもらえるようになります。 Mobile Link Discovery 仕様 http://www.sixapart.jp/docs/tech/mobile_link_discovery_ja.html 検索エンジンでは、Googleモバイルのgoogle mobile proxy http

  • 【埋】「何でもRSS」の良し悪し - トラフィック・コントロールとRSS粒度

    日曜コラムです、こんばんは。 「あまとも」に 商品別RSS が加えられたのは、ちょうど2週間前のことです。 それまでは「あまとも」に登録されている商品全体に対して、 価格変動のあった商品をお知らせするRSSを1つだけ提供していたのですが、 自分の興味の無い商品の価格変動を延々と見せられても困りモノですので、 ユーザのみなさんが自分の興味のある商品の変動だけをRSSリーダに登録 できるように商品別RSSを吐き出すように変更してみたのです。 ところが、この商品別RSSを提供し始めてから、ある変化が起こりました。 サーバ負荷が急激に上がる時間帯が出始めたのです。 RSS自体は全て、価格が変動したときだけ更新される静的なxmlファイルで、 価格チェック処理ののときに合わせて、いわば「ついで」として吐き出す ようにしているもので、生成処理に特に負荷が掛かるワケでもありません。 では何がこんなに負荷と

    【埋】「何でもRSS」の良し悪し - トラフィック・コントロールとRSS粒度
  • 404 Blog Not Found:クローラにしかとシカトしてもらう50の方法

    2006年10月28日22:30 カテゴリTips クローラにしかとシカトしてもらう50の方法 というわけで備忘録代わりに。 Apache: The Definitive Guide [邦訳:Apacheハンドブック] [を] Yahoo! Slurp に rel="nofollow" を無視されたYahoo! Slurp に一斉にアクセスされてサーバのロードアベレージが激ヤバ。 とりあえず、CGIスクリプトのファイル名を変更して回避。robots.txt 最も基的なのがこれ。たつをくんがこれを知らないはずはないのだけど一応基からということで。 robotstxt.org Robots Exclusion Standard - Wikipedia, the free encyclopedia http://www.dan.co.jp/robots.txt ちなみに最後のワイルドカードを

    404 Blog Not Found:クローラにしかとシカトしてもらう50の方法
  • 1