S2Robot は Seasar2 を利用したクローラフレームワークです。 S2Robot を利用することで、サイト上に存在する画像の保存や 全文検索のインデックスを生成など、様々な用途に利用可能です。 特徴 Web およびファイルシステムをクロール可能 マルチスレッドクローリング 巡回する深さ、コンテンツ取得数を指定可能 巡回するコンテンツのフィルタリング 柔軟に拡張可能なコンテンツ処理ルール robots.txt に従うクローリング 画像や音声ファイルなどの様々なファイルからも文字列抽出可能