※随時追加中 ブログの過去記事全てのタイトルとURLを取得したいのですが、RSSでは最新記事数件しか取得できないので、Webスクレイピングしてしてみます。 今回はRubyでスクレイピングする際の定番ライブラリである「Nokogiri」を使います。まず初めに以下のブログ記事を読む事をおすすめします。 Nokogiri の基本(翻訳版) - ENGINE YARD BLOG 実際に記事一覧を取得する流れは、 (1)htmlを取得 → (2)nokogiriでパース → (3)タイトル/URL取得 → (4)次ページがあれば(1)へ戻る みたいな感じです。 今回はあくまでタイトルとURL一覧を作りたいので、各記事の本文取得までは行っていません。 実際にスクレイピングする時は、以下の記事に目を通す事をおすすめします。 Webスクレイピングの注意事項一覧 - Qiita 記事一覧ページまとめ 各種ブ
