タグ

クローラーに関するtomiyanxのブックマーク (2)

  • wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・!

    2013/04/08 この記事は書かれてから1年以上が経過しており、最新の情報とは異なる可能性があります techwgetCrawler ええ、知りませんでした。無知もいいところです・・・。 webコンテンツをざっくりローカルで見られるようにしたいなー。と思って、いろいろぐぐってました。 基点のURLからリンクやらリソースやらを辿って、それらをすべて落としてきて、 そこからさらにパスとかを変換してやればいいのかなーとか思っていたのですが、 ぐぐってみると、もうすでに 全部やってくれる便利なコマンドがある のではないですか。 それが、wget というソースコードをダウンロードするのによく使うコマンドだったことに驚きでした。 ちなみに mac は入ってないっぽいのでさくっと入れました。 brew install wget 普通の使い方は、wget のあとにダウンロードしたい URL を続けて引

    wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・!
  • Anemoneによるクローラー入門 | feedforce Engineers' blog

    こんにちは! 見た目30歳の新卒1年目中野です。 今回は社内でクローラーについて勉強会を行ったので、その内容について記事を書きました。 クローラーとは、WebページからHTMLを解析して周期的に情報を収集する技術です。 初心者向けの内容となっていますので、クローラーに興味があってやってみたい!という人に読んでいただきたいなと思います。 Anemoneによるクローラー入門 from Tasuku Nakano クローラーとスクレイピングについて まずはクローラーについて説明していきます。 ただ、その前にスクレイピングという技術もあるので先にそちらを説明します。 ご存知かと思いますが、スクレイピングとは、WebページのHTMLを解析してデータを抽出することです。スクレイピングはWebページ1ページに対して処理を行います。 一方クローラーは、Webページ内にある全てのリンクを巡回して、深堀りしな

    Anemoneによるクローラー入門 | feedforce Engineers' blog
  • 1