タグ

robots.txtに関するsuzukiMYのブックマーク (3)

  • “消えた”ウエブサイトを後世に|NHK NEWS WEB

    スマートフォンやパソコンでちょっとした調べものをしたときに、お目当てのサイトがいつの間にか消えていたり、内容が変わったりしていて、残念に感じた経験も多いのではないでしょうか。こうしたサイトを保存する取り組みを進めているのが国立国会図書館です。これまでに保存したサイトのデータ量は700テラバイト余り。今、この膨大なデータを活用しようと新たな試みも始まっています。 “消えた”日韓ワールドカップ 今から14年前、日中が熱狂した2002年のサッカー・日韓ワールドカップ。私もチケットの情報や試合の日程を調べるために、毎日のように公式サイトをチェックしていました。当時は、通信環境も今ほどよくなく、サイトを見るためにわざわさネットカフェに出かけたのを覚えています。しかし、今、このアドレスにアクセスしてもサイトを見ることはできません。大会が終わってほどなく閉鎖され、サイトを運営していた大会の組織委員会も

    “消えた”ウエブサイトを後世に|NHK NEWS WEB
    suzukiMY
    suzukiMY 2016/08/16
    http://warp.da.ndl.go.jp/ NHKも宜しくお願い致します。
  • ウェブページをより深く理解するようになりました

    +1 ボタン 2 AMP 11 API 3 App Indexing 8 CAPTCHA 1 Chrome 2 First Click Free 1 Google アシスタント 1 Google ニュース 1 Google プレイス 2 Javascript 1 Lighthouse 4 Merchant Center 8 NoHacked 4 PageSpeed Insights 1 reCAPTCHA v3 1 Search Console 101 speed 1 イベント 25 ウェブマスターガイドライン 57 ウェブマスタークイズ 2 ウェブマスターツール 83 ウェブマスターフォーラム 10 オートコンプリート 1 お知らせ 69 クロールとインデックス 75 サイトクリニック 4 サイトマップ 15 しごと検索 1 スマートフォン 11 セーフブラウジング 5 セキュリティ 1

    ウェブページをより深く理解するようになりました
  • 大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

    robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で

    大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
  • 1