これはWebスクレイピング Advent Calendar 2017の7日目の記事です。こんな感じでAWS FargateとAWS Lambdaを使ってサーバーレス(EC2レス)なクローラーを作ります。 この記事はFargateでのクローリング処理にフォーカスしており、クロールしたHTMLをS3に保存するところまでを主に解説します。Lambdaの方はおまけ程度の扱いで、スクレイピングしたデータの扱い(データベースへの格納など)はスコープ外です。 長くなったので目次です。 背景 AWS Fargateの登場 クローラーの構成 やってみる 1. ScrapyのプロジェクトでSpiderを作る 2. Scrapy S3 Pipelineをインストールする 3. Scrapy S3 Pipelineをプロジェクトに追加する 4. ScrapyのプロジェクトをDockerizeする 5. Amazo
![AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor](https://cdn-ak-scissors.b.st-hatena.com/image/square/3dece1ba3117cec56894d40293fd4498793f17ae/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fm%2Fmi_kattun%2F20171206%2F20171206222317.png)