タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

クローリングに関するyamikuro1226のブックマーク (1)

  • Kazuhiro's Weblog: 「Nutch」ですいすい情報収集 (クローリング機能を試す)

    「Nutch」でウェブサイトをクローリングする方法を説明します。 クローリングとは、簡単にいえば「ウェブサイトの情報を集めるてくれる仕組み」でしょうか。 (注) nutchを利用するには、unixがお勧めです。 私は、「CentOS 4」をOSとし用いました。 最初はwindowsでがんばろうと試行錯誤しましたが 多くの無駄な時間をつかってしまうという結果に終わりました(TT)。 「Nutch」利用したクローリングの方法には、 (A)ある特定のネットワーク(intranet)をクローリングする方法 (B)ウェブ全体(whole-web)をクローリングする方法 の2つがあります。 今回は、このblogサイト「http://kazuhiro.ty.land.to/blog/」を起点にして (A)の方法でクローリングする方法を紹介します。 (1)「Nutch」をインストールする 「Nutch」の

  • 1