サーバーレスでイベントドリブンなWEBクローラーを作ってみる 今ElasticSearchを勉強中なので、ESを使って何かできないかなと思い、Kinesis+Lambdaを使ったイベントドリブンなWebクローラーを書いてみました。 実行環境 CentOS7 python 2.7 ワークフロー 大まかな流れは以下の通りです。 Scrapy(ScrapingHub or AWS Lambda)でURLを抽出、KinesisストリームにPUT KinesisストリームからAWS Lambdaに発火させる Lambda関数からURLへ巡回し、データをElasticSearch Serviceへ流す IAMユーザーの作成 KinesisとElasticSearchを使う上で、権限が必要になるので、 それぞれにアクセスキーIDとシークレットアクセスキーを用意しておく。 また、ユーザーのARNも必要にな