はじめに AWS上でクローラを動かしたいときがある。 様々な選択肢があると思われるが、とりあえず思い付いたアーキテクチャ(構成)を書く。 どの構成が良いとかは不明(もっと良いアーキテクチャあると思う)。良し悪しの基準の定義がめんどいからとりあえず書く。 クローラについて ここでは、クローラとは「webページからデータを取得し、それを構造化するプログラム」と定義する クロール対象について 何かしらの「物」(洋服、食べ物、不動産、etc)を閲覧できるwebページ 「物」の一覧ページと「物」それぞれの詳細ページ、という構成である 「物」を検索する機能がある(場合がほとんど) クロールの処理について クロールの処理は主に3つのフェーズがあると考えられる +------------------------------------------------------------+ | | | | |