Googleはサーチエンジンの情報収集にGooglebotを使っています。あるウェブサイトを起点に、そのサイトのリンクを自動で辿り、情報を収集します。 pythonの Scrapy モジュールを使えば、同じようなことを実現できます。 Scrapy を用いてサイトの情報を収集してみます。 #準備 Scrapyをpipでインストールします。 `$ pip install scrapy #使い方 Scrapyは、プロジェクト単位で管理します。プロジェクトを生成した後、そこで自動生成された下記ファイルを編集していきます。 items.py : 抽出データを定義する spiders/以下のスパイダー(クローラー)ファイル:巡回、データ抽出条件 pipelines.py : 抽出データの出力先。今回はmongoDB settings.py : データ巡回の条件 (頻度や、階層など) ##プロジェクトの