Googleはサーチエンジンの情報収集にGooglebotを使っています。あるウェブサイトを起点に、そのサイトのリンクを自動で辿り、情報を収集します。 pythonの Scrapy モジュールを使えば、同じようなことを実現できます。 Scrapy を用いてサイトの情報を収集してみます。 準備 Scrapyをpipでインストールします。 `$ pip install scrapy 使い方 Scrapyは、プロジェクト単位で管理します。プロジェクトを生成した後、そこで自動生成された下記ファイルを編集していきます。 1. items.py : 抽出データを定義する 2. spiders/以下のスパイダー(クローラー)ファイル:巡回、データ抽出条件 3. pipelines.py : 抽出データの出力先。今回はmongoDB 4. settings.py : データ巡回の条件 (頻度や、階層など)