[レベル: 上級] インターネットのおよそ 60% は重複である 11 月 24 日にシンガポールで開催された Search Central Live Conference Singapore のセッションに登壇した Gary Illyes(ゲイリー・イリェーシュ)氏はこんな数値に言及しました。 重複対象の URL この数値が出てきたのは、クロールとインデックスの詳細をゲイリーが解説したセッションです。 ゲイリーは、次のプロセスにクロールを細かく分解しました。 URL Extraction(URL 抽出) Normalizing(ノーマライズ) Dedupulication(重複解消) 3 番目の Dedupulication(重複解消)のプロセスの説明中に紹介されたのが「インターネットのおよそ 60% は重複である」というデータです。 次のような状態の URL を Dedupulicat