タグ

crawlerに関するsaronpasuのブックマーク (9)

  • アクセス制限更新 − YodaoBot、ICC-Crawler | MAKIZOU.COM

    Webサイトやブログを長く運営していると、多くのアクセスに困るぐらい見てもらう事が夢になるのですが、ただ単にデータ収集の為に、アグレッシブなアクセスで安定運営を脅かす輩がいます。 効力のある抗議をする事も出来ないので、専守防衛。 で、またアクセス制限をするお仲間としばらく来ていない輩の整理をいたしました。 現在「.htaccess」でのアクセス制限設定値 SetEnvIf User-Agent “Baiduspider” AGENT no_log SetEnvIf User-Agent “NaverBot” AGENT no_log SetEnvIf User-Agent “psbot” AGENT no_log SetEnvIf User-Agent “iaskspider” AGENT no_log SetEnvIf User-Agent “Accoona-AI-Agent”

    saronpasu
    saronpasu 2008/04/24
    .htaccessで絨毯爆撃クローラーを撃退
  • Fasterfox の先読みをブロックする方法 - lucky bag

    自サイトのアクセスログ見てて、同時刻に複数ページへすんげぇ勢いでアクセスしている Firefox の UA 名なんか見つけると、Firefox を高速化する機能拡張 Fasterfox 使ってんだろうなとか思うわけで、まぁここら辺のことはかなり前に最速な人が取り上げてたりする。 今までこの Fasterfox のリンク先読み機能に対して、サイト側の方ではどうにも出来なかったんだけど、Fasterfox のバージョンが 1.0.3 になってから robots.txt を読むようになったらしく、下記の2行を robots.txt に記述すれば先読みをブロックできる。 User-agent: Fasterfox Disallow: / つう訳で、サーバに負荷をかけられたくねぇって人や、ログに余計なノイズを残すなやって人はやってみると幸せになれるかも知れないですぜ !

    saronpasu
    saronpasu 2008/04/01
    robots.txtから
  • 「Google Webmaster Central」でGooglebotのテストができる - GIGAZINE

    GoogleがWebサイト管理者のために「Google Webmaster Central」というのを新しく開設したわけですが、中でも興味深いのがrobots.txtのための機能としてあの「Googlebot」のテストができるという点。通常のGooglebotだけでなく、AdWordsページのクオリティを審査するためのボットである「Adsbot-Google」のテストもできます。 というわけで、実際に使ってみました。 これがトップページ まずは「サイト ステータス ウィザード」というのを使ってみます。 最初にドメインを入力 こんな感じでインデックス登録の概要などが表示されます。このままGoogleサイトマップへ引き継ぐことも可能です そしていよいよ題、「ウェブマスターのツール」というのを使ってみることにしました。既にGoogleサイトマップを利用しているので、そのアカウントを利用してログ

    「Google Webmaster Central」でGooglebotのテストができる - GIGAZINE
  • Googlebotを手なずけるワザ | Google Watch

    Googlebotを手なずけるワザ 今や技術面でもビジネス面でも、インターネットを語るうえで欠かせない存在となったGoogle。この連載では、そんなGoogleが提供しているサービスとそれを支える技術の解説、ビジネス的な可能性の考察など、さまざまな視点から捉えていくとともに、Googleの最新ニュースなどもお届けする。 GooglebotのすべてGoogleのオフィシャルブログの1つWebmaster Central Blogで、All About Googlebotとして、Googleのインデックスクローラー「Googlebot」が自サイトを訪問した際の動きをコントロールする方法がいくつか公開された。 Googlebotの制御方法に関する情報は、ウェブマスター向けヘルプ センターの「robots.txt ファイルでサイト アクセス管理をするにはどうすればよいですか。 」にも書かれているの

    Googlebotを手なずけるワザ | Google Watch
  • Yahoo! JAPANヘルプ

    Yahoo! JAPAN 指定されたページは存在しません。 各サービスのヘルプはYahoo! JAPANヘルプセンターからご覧ください。 プライバシーポリシー - 利用規約 Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved.

    saronpasu
    saronpasu 2008/03/18
    Crawl-delay {分}で、アクセス間隔を制御
  • robots.txtの正確な書式,ロボット対策,noindex,nofollow | ASY! - エイジー

    来源:黑客技术 时间:2020-09-18 07:47 海拉尔暖通空调有限公司dz7if,霍邱暖通空调有限公司,潮州印刷有限公司,温州蔬菜有限公司,河源钢铁有限公司 商品货币上涨,特朗普称他愿在适当的条件下与伊朗总统鲁哈尼会面。澳元兑美元上涨0.28%至0.6775;盘中一度下跌1%。美元兑加元下跌0.22%至1.3254,纽市尾盘触及1.3251,为近一周来最低;加元受益于定盘相关的资金流、空头回补和趋险主题。纽元兑美元跌0.17%至0.6394;一度下跌1%至0.6342,这是近四年来最低水平。 周二前瞻 时间 区域指标前值09:30中国7月规模以上工业企业利润年率(%)-3.114:00德国第二季度季调后GDP季率终值(%)-0.114:00德国第二季度未季调GDP年率终值(%)016:30英国7月BBA房屋购买抵押贷款许可件数(万件)4.2722:00美国8月谘商会消费者信心指数1

    saronpasu
    saronpasu 2008/03/18
    robots.txtの書き方
  • The Web Robots Pages

    About /robots.txt In a nutshell Web site owners use the /robots.txt file to give instructions about their site to web robots; this is called The Robots Exclusion Protocol. It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds: User-agent: * Disallow: / The "User-agent

    saronpasu
    saronpasu 2008/03/18
    robots rule
  • http://mixi.jp/robots.txt

    saronpasu
    saronpasu 2008/03/18
    robots.txt
  • ウノウラボ Unoh Labs: 携帯サイトとクローラ

    harukiです。 ケータイユーザも検索エンジンから来るユーザも増えています。 そのため、携帯サイトも検索エンジンのクローラへ対応する必要があります。 ・Mobile Link Discoveryの記述を追加する PC用のページのheadタグ内に <link rel="alternate" media="handheld" href="(ケータイURL)" /> の記述を追加するだけです。 Mobile Link Discoveryに対応しているサイトでは、ケータイからのアクセス時に直接アクセスしてもらえるようになります。 Mobile Link Discovery 仕様 http://www.sixapart.jp/docs/tech/mobile_link_discovery_ja.html 検索エンジンでは、Googleモバイルのgoogle mobile proxy http

  • 1