1. AWS Lambda Meetup #0 Lambdaで作る クローラー/スクレイピング 2014年12月22日 NRIネットコム 佐々木拓郎 2. ✦ プロフィール ‣ NRIネットコム株式会社 ‣ Twitter: @dkfj ‣ Facebook: takuro.sasaki ‣ blog: http://blog.takuros.net/ ‣ 好きなAWSサービス: S3,SQS 自己紹介: 佐々木拓郎
anemoneが人気だけど物足りない Rubyでクローラーと言えばanemoneですよね。ですがanemoneは2012年で更新がほぼ停止しています。 また大きめのサイトをクロールするとページ数が数万を超えて来ますし、プラスアルファで属性情報を収集する必要が出てくるので素のanemoneだと対応が難しくなります。 仕事で技術方向に特化したSEOをしている事もあってanemoneをクローラーとして使うのには物足りませんでした。具体的に物足りなかった機能を列挙します。 Charsetのサポート、自動判定 中断再開機能 一時停止後のオプション変更 複数サイトに対する平行稼働 許可するサブドメインの指定 除外するサブドメインの指定 UserAgentの切り替え(GoogleBotに成りすますなど) 除外するパラメータやパスの指定 多段リダイレクトの追跡 クロールするページ上限数の指定や切り替え 日
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く