なにかライブラリが無いかと思ってcrawler4jに行き着きました。 使用準備 http://code.google.com/p/crawler4j/ のサイドバーにある[Downloads]からcrawler4j-3.5.zipとcrawler4j-3.5-dependencies.zipをダウンロードする。 htmlのパースにはjsoupを使うので、ここからダウンロードしておく。 eclipseだと[ビルドパスの構成]>[ライブラリー]から[外部jar追加]で全てのjarファイルを追加する。 これで準備完了のはず? そろそろmaven使おう 大体の実装としてはBasic Crawlerで十分だと思う。 BaseCrawler.javaでOverrideしてあるvisitとshoudVisitでは、クロールするurlの絞り込みや、実際の処理を記述出来る。 BaseCrawlControl