20.1 ウェブクローリング ウェブの世界からページを集め,それらをインデックス付し検索エンジンの手助けをするプロセス できるだけ有用なページを集める それらを結んで切るリンク情報を共に収集する 高速に,効率的に集める 20.1.1 クローラが提供すべき機能 頑健性 (robustness) スパイダートラップ => クローラをだましてある特定のドメインから無数のページを取り出させるように仕向けるウェブページ クローラはこのようなわなに対して体制を持たなければならない 礼儀正しさ (politeness) Webサーバはクローラがウェブサイトを訪問する比率を制御する暗示的,明示的なポリシーをもっており,これらは尊重されなければならない 20.1.2 クローラが提供すべき機能 分散性 クローラは複数の機会をまたがって分散された形で実行できるべきである スケーラビリティ クローラはマシンや帯域