[B! 検索エンジン] michael26のブックマーク

michael26 id:michael26

検索エンジンに関するmichael26のブックマーク (2)

大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
robots.txtとは robots.txtは、検索エンジンのクローラー（bot）に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:（ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能） Crawl-Delay:（クロールの時間間隔を指定） Disallow:（クロールされたくないページやディレクトリを指定） Allow:（Disallowで指定されたディレクトリの小階層で
michael26 2013/04/10
検索エンジン

search

robot

seo
リンク
最も危険な検索エンジン？　「Ｓｈｏｄａｎ」が浮き彫りにする無防備なネット環境
ニューヨーク（ＣＮＮＭｏｎｅｙ）「グーグル検索で見つからないものは誰にも見つけられないと思われがちだが、それは真実ではない」――。インターネットの「闇グーグル」とも呼べる検索エンジン「Ｓｈｏｄａｎ」を開発したジョン・マザリー氏はそう話す。ウェブサイトを巡回して情報を収集するグーグルに対し、Ｓｈｏｄａｎはサーバー、ウェブカメラ、プリンター、ルーターなど、インターネットに接続された機器５億台あまりを巡回して情報を収集する。ごく単純な検索でも、Ｓｈｏｄａｎに表示される結果には息をのむ。インターネットに接続された無数の信号機、防犯カメラ、ホームオートメーション機器などが簡単に見つかるほか、親水公園やガソリンスタンド、ホテルのワインクーラー、火葬場などの制御システムも検索できる。サイバーセキュリティーの専門家は、原子力発電所や粒子加速器の制御システムまで探し当てたという。何よりも恐ろしいこと
michael26 2013/04/10
セキュリティ

これはこわい

検索エンジン
リンク
1