ブログ記事を収集する必要が生じてクローラ書いた. 最初は wget -a ./wget.log -w 30 -r -np -m -k -erobots=off -np blog_url とかやってたけど月別一覧やカテゴリ一覧,モバイル版URLを開こうとしてかなり重複してしまい一向に終わらないので,主要なブログサービスに合わせて書いた. どこから辿るのが記事を網羅できるか考えたところ Livedoor: base_url/archives/year-month.html?p=pos 続きがあるかどうかの判定,ブログによってまちまちなのでキーワードマッチにした Ameblo: base_url/archive#{pos}-#{year}#{month}.html excite: base_url/page/#{pos} yaplog: base_url/#{pos} base_url/mont