WebAPIだけに頼る必要はない。HTML構造を解析し、さらに情報集約や付加情報を加えたまとめサイトを作る。この特集は、Webをさらに使いやすくするためのガイドだ。 第1回目では、マッシュアップできないならば、スクレイピングすればよいと説明した。それでは、具体的に、どのようにスクレイピングすればよいのか。今回は、スクレイピングの考え方と技法を説明していこう。 CSSの普及で、容易になったスクレイピング 実際に、ほかのサイトにあるHTMLをスクレイピングする場合、次の処理の流れとなる。 1)サーバからHTMLデータを取得する これは単純に、HTTP通信してHTMLデータを取得する操作である。例えばPerlであれば、LWP(libwww-perl)を利用すればよいだろう。もっと簡単に、UNIXに付属のwgetコマンドやfetchコマンドを使ってもよいはずだ。 2)HTMLから取り出したいデータ
![Webを進化させるスクレイピングのセオリー](https://cdn-ak-scissors.b.st-hatena.com/image/square/85428876b8ba97387a8ef0295012d53a70b7c76e/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fenterprise%2Farticles%2F0712%2F06%2Fsummury02_01.gif)