最近、クローリング/スクレイピング/スパイダリングにはまっています。 Amazonのランキングを出力したいなと思いました。 やり方はいろいろあるのだけれども、、、 例えばAmazonのランキングのページのhtmlを解析して、必要な情報だけ抜き取るとかね。 このやり方の良いところは、ページに表示されているものならすべて扱えるところですかね。 他にもRSSを読み込んで出力するという方法があります。RSSはフォーマッティングされた綺麗な形式なので、情報の抜きだしは簡単。その代わり、配信されていない情報はどうにもこうにも出来ません。 ということで、扱いたい情報がRSSで事足りるならRSS,足りないならページを地道にスクレイピングするのが良いのかなと。 試しに Amazon.co.jp: 本 > 文学・評論のベストセラーのRSSを読み込んでみることにした。 サンプルコード require 'rss'