タグ

crawlerに関するasa_ca3のブックマーク (1)

  • Javaでクローラを実装する - Qiita

    なにかライブラリが無いかと思ってcrawler4jに行き着きました。 使用準備 http://code.google.com/p/crawler4j/ のサイドバーにある[Downloads]からcrawler4j-3.5.zipとcrawler4j-3.5-dependencies.zipをダウンロードする。 htmlのパースにはjsoupを使うので、ここからダウンロードしておく。 eclipseだと[ビルドパスの構成]>[ライブラリー]から[外部jar追加]で全てのjarファイルを追加する。 これで準備完了のはず? そろそろmaven使おう 大体の実装としてはBasic Crawlerで十分だと思う。 BaseCrawler.javaでOverrideしてあるvisitとshoudVisitでは、クロールするurlの絞り込みや、実際の処理を記述出来る。 BaseCrawlControl

    Javaでクローラを実装する - Qiita
    asa_ca3
    asa_ca3 2014/05/26
    “crawler4j”
  • 1