luckyxreaのブックマーク / 2016年1月16日

scrapy を用いてデータを収集し、mongoDB に投入する - Qiita

10 users
qiita.com/tamonoki
テクノロジー

Googleはサーチエンジンの情報収集にGooglebotを使っています。あるウェブサイトを起点に、そのサイトのリンクを自動で辿り、情報を収集します。 pythonの Scrapy モジュールを使えば、同じようなことを実現できます。 Scrapy を用いてサイトの情報を収集してみます。準備 Scrapyをpipでインストールします。 `$ pip install scrapy 使い方 Scrapyは、プロジェクト単位で管理します。プロジェクトを生成した後、そこで自動生成された下記ファイルを編集していきます。 1. it ems.py : 抽出データを定義する 2. spiders/以下のスパイダー(クローラー)ファイル：巡回、データ抽出条件 3. pipelines.py　：　抽出データの出力先。今回はmongo DB 4. settings.py　：　データ巡回の条件 (頻度や、階層など)

scrapy を用いてデータを収集し、mongoDB に投入する - Qiita

はてなブックマーク

タグ

2016年1月16日のブックマーク (1件)

scrapy を用いてデータを収集し、mongoDB に投入する - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス