ウェブサイトはHTMLをブラウザが描画して見るもの、と思っていた時代がそろそろ終わりに近づいている。 ウェブ標準が提唱され、HTMLはXHTML+CSSとなり、今までソースを汚していたTABLEタグ、イメージ情報等は排除され、HTML自体が純粋にデータと意味のみ記載されたマーキングアップテキストになってきている。 利点でもあり欠点でもあるのだが、wwwに公開されているもの、というのは基本的には全て「もっていく事が可能なデータ」である。いままでも、正規表現等を駆使して、目的のサイトをスクリーニングする事ができたのだが、各サイトによりバラツキがあり、統一のフォーマットというものがなかった。 しかしホームページの多くがブログ化されたことにより、今多くのウェブサイトは一定のフォーマットにより決められた書き方をされている。 上記したようにHTMLがデザインを切り離し、フォーマット化されたことにより、