尾内研クローラ勉強会 第一回レジュメ written by Shinsuke Ihara 本日のお品書き 1.導入 ・クローラってなに? -クローラとは -世の中にはどんなクローラがあるか ・なにが難しいの? -もっとも単純なクローラ -もっとも単純なクローラではどこがだめか ・さらにその先にある問題 -google のクローラ -ハードウェアと OS -Web の広大さ、そしてその「構造」について ・クローラに求められる振る舞いとは? -大前提 ∼クローラは慎み深くなければならないということ -robots.txt を尊重する -必要なものだけを適切な頻度で取得する ・クローラを作ったら? -名前を付けよう -User-Agent を設定しよう -Web 上にページを作ろう -クローラを登録しよう -なぜこんなことをするの? ・クローラについてより深く学ぶには 2.JSpide