サーバレスな汎用スクレイパーを作った。 - あのにのに 前回はAPIGatewayとLambdaで、指定したURLの指定した位置にあるデータを抜き出すAPIを作った。 今回はサイト内探索をするようなシステムをAWS上に構築しようと思う 注意:クローラは用法用量を守って、相手方のサイトに迷惑がかからないように十分な配慮を徹底しましょう。 今回作るもの こんな感じの構成をイメージしてる。 DynamoDBの1レコードがサイトへの1リクエストに常に対応するものとし、内部リンクのURLを新たにDynamoDBのテーブルに追加していく。 得られたデータは対応レコードに格納される。 URLがテーブルに追加されると、DynamoDB Streamsに流され、Lambdaで実行される。 というような繰り返し。 DynamoDBのデータスキーム 1.Request先URL :target_url 例) ht
![AWS上にサーバレスな汎用クローラを展開するぞ。 - 超平面あのにのに](https://cdn-ak-scissors.b.st-hatena.com/image/square/32cdc21b57f8765b93c2ccd6a2f6b458e89f904e/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2FanoChick%2F20161211%2F20161211213223.png)