タグ

crawlerに関するchanpon0のブックマーク (3)

  • iQONを支えるクローラー/iQON Crawler

    IVS CTO Night & Day Spring 2015 のLTで発表した内容です /VASILY @kyuns

    iQONを支えるクローラー/iQON Crawler
  • マーケティングに使えるって知ってた?クローラのあれこれ | EVERRISEアドテクブログ

    こんにちは、伊藤です! 今回は、Webページ巡回ツール、通称「クローラ」についてご紹介します。 クローラと言えば、検索エンジンのBOTというイメージが強いと思いますが、それだけじゃありません。 専門分野に特化して情報収取をしたり、企業のマーケティング活動で利用されていたりします。 実現する技術基盤なども加えて、諸々をご紹介します。 そもそもクローラって何? Webクローラの定義については、いつもお世話になっているe-Wordsさんをご覧ください。 Webクローラ 簡単に一言で説明しますと、 「指定されたURL(そこからリンクする関連URLも)を、システムが自動で巡回して、サイトの情報を収集してくる」 だけのツールです。 よって、クローラという単体ツールだけでは、なんら特徴のあるものではありません。 「検索エンジン用クローラ」「市場調査用クローラ」といった、特別な機能は、 指定URLをクロー

    マーケティングに使えるって知ってた?クローラのあれこれ | EVERRISEアドテクブログ
  • 第22回 Coroを使ったやさしいクローラの作り方(1) | gihyo.jp

    連載では第一線のPerlハッカーが回替わりで執筆していきます。今回は誌Vol.68~73まで「フロントエンドWeb戦略室」を連載していたmalaさんで、テーマはクローラの作り方です。個人用のちょっとしたダウンローダを書くときから、大規模なクローラを書く場合まで、Perlは強い味方になります。 なお稿のサンプルコードは、誌サポートサイトから入手できます。 クローラの礼儀作法 クローラ、スパイダ、bot[1]を稼働させる際は、アクセスのしかたによっては相手先のサービスに多大な負荷をかけてしまいます。節ではまず、使用言語にかかわらずクローラを書くうえで一般的に知っておくべき作法について述べます。 robots.txtによるbotの制御─⁠─ アクセスしてよいかの指示 Webサイトに置かれるrobots.txtは、botから「アクセスしてよいか」を判断するものです。アクセスする対象がht

    第22回 Coroを使ったやさしいクローラの作り方(1) | gihyo.jp
    chanpon0
    chanpon0 2014/04/14
    ご作法
  • 1