ウェブサイトはHTMLをブラウザが描画して見るもの、と思っていた時代がそろそろ終わりに近づいている。 ウェブ標準が提唱され、HTMLはXHTML+CSSとなり、今までソースを汚していたTABLEタグ、イメージ情報等は排除され、HTML自体が純粋にデータと意味のみ記載されたマーキングアップテキストになってきている。 利点でもあり欠点でもあるのだが、wwwに公開されているもの、というのは基本的には全て「もっていく事が可能なデータ」である。いままでも、正規表現等を駆使して、目的のサイトをスクリーニングする事ができたのだが、各サイトによりバラツキがあり、統一のフォーマットというものがなかった。 しかしホームページの多くがブログ化されたことにより、今多くのウェブサイトは一定のフォーマットにより決められた書き方をされている。 上記したようにHTMLがデザインを切り離し、フォーマット化されたことにより、
![Webサイトは近いうちになくなる--インターネットへのアクセス方法の変化](https://cdn-ak-scissors.b.st-hatena.com/image/square/2f38cd5717231f0fe81600c1b3e70ad03bdea93d/height=288;version=1;width=512/https%3A%2F%2Fjapan.cnet.com%2Fstorage%2F2010%2F12%2F13%2F9a4b0d5e413cf091bee7fb82830104e2%2Fstory_media%2F20344427%2Fwebreport_184x138.jpg)