RSSを活用する スクレイピングはHTMLを解析するわけだが、もし、サイトでRSSが提供されているのであれば、RSSも併用するとスクレイピングしやすい。RSSは構造化されたデータだからだ。 RSSのデータ内には、記事の「タイトル」「概要」「更新日」「URL」がカテゴリ別に分けられ、記載されている。更新日が入っていることからも、RSSを見れば、最新のコンテンツのURLが分かるというのは、改めて言うまでもない。 スクレイピングする時には、カテゴリーも得られるという点に着目したい。この分類が可能なことは、「そのカテゴリのコンテンツ」だけの抜き出しが極めて容易になるということだ。 例えば、実際にオルタナティブ・ブログのRSSは、幾つかのカテゴリに分類されている。実際にInternet Explorer 7でRSSを参照すると、右側にある[カテゴリによるフィルタ]の部分で確認できる(図3)。 Web
![スクレイピングで作る“まとめサイト”](https://cdn-ak-scissors.b.st-hatena.com/image/square/7e51372d18138e90ed2c8d95d693065718b5e361/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fimages%2Flogo%2F1200x630_500x500_enterprise.gif)