現在、友人とWebサービスを作る計画があり、そのサイトを作るためにスクレイピングが必要だったのでちょっと勉強してみました。 ※追記 DOMツリー生成は時間がかかるのでネストが深くない場合は正規表現がオススメです スクレイピングとは? はてなキーワードによると「ウェブサイトのデータを必要な部分だけ抽出して利用すること」だそうです。 あるウェブサイトのデータをとってきたいときにそのサイトのAPIが提供されていればそのAPIを使用すればいいわけですが、提供されていない場合は、スクレイピングをする必要があるわけです。 例えば、WikipediaはAPIが提供されていないので必要なデータをとってきたいときにとってこれません。スクレイピングすればとってくることができます。 ※Wikipediaはidをあまり指定しないサイト構成をとっているのでスクレイピングでデータをとってはこれるのですが、かなり面倒く