IVS CTO Night & Day Spring 2015 のLTで発表した内容です /VASILY @kyuns
こんにちは、伊藤です! 今回は、Webページ巡回ツール、通称「クローラ」についてご紹介します。 クローラと言えば、検索エンジンのBOTというイメージが強いと思いますが、それだけじゃありません。 専門分野に特化して情報収取をしたり、企業のマーケティング活動で利用されていたりします。 実現する技術基盤なども加えて、諸々をご紹介します。 そもそもクローラって何? Webクローラの定義については、いつもお世話になっているe-Wordsさんをご覧ください。 Webクローラ 簡単に一言で説明しますと、 「指定されたURL(そこからリンクする関連URLも)を、システムが自動で巡回して、サイトの情報を収集してくる」 だけのツールです。 よって、クローラという単体ツールだけでは、なんら特徴のあるものではありません。 「検索エンジン用クローラ」「市場調査用クローラ」といった、特別な機能は、 指定URLをクロー
本連載では第一線のPerlハッカーが回替わりで執筆していきます。今回は本誌Vol.68~73まで「フロントエンドWeb戦略室」を連載していたmalaさんで、テーマはクローラの作り方です。個人用のちょっとしたダウンローダを書くときから、大規模なクローラを書く場合まで、Perlは強い味方になります。 なお本稿のサンプルコードは、本誌サポートサイトから入手できます。 クローラの礼儀作法 クローラ、スパイダ、bot[1]を稼働させる際は、アクセスのしかたによっては相手先のサービスに多大な負荷をかけてしまいます。本節ではまず、使用言語にかかわらずクローラを書くうえで一般的に知っておくべき作法について述べます。 robots.txtによるbotの制御── アクセスしてよいかの指示 Webサイトに置かれるrobots.txtは、botから「アクセスしてよいか」を判断するものです。アクセスする対象がht
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く