タグ

Nutchに関するtyabeのブックマーク (3)

  • Apache Nutch調査録(mwSoft)

    Apache Nutch調査録 導入と基的な使い方(2010/12/11) LinuxでNutchのソースを落としてantして、適当にコマンドを打ってみた記録 nutch-default.xmlの設定(2010/12/11) nutchの動きを設定するnutch-default.xmlを読んだ際の個人的まとめ crawlしてできるディレクトリの詳細(2010/12/12) crawlした際に作成されるディレクトリをdumpしてどんな情報がいるか確認する クロールを順を追って実行する(2010/12/12) inject、generate、fetchなどの個別の実行コマンドを使ってcrawlを実行する

  • Nutch - PukiWiki

    オープンソースな検索エンジン Nutch のインストールから設定まで 家サイト+α † 家サイトはこちら http://www.nutch.org/ 開発者向けページはこちら http://www.nutch.org/docs/en/developers.html このページの前半戦の参考ページはこちら http://www.nutch.org/docs/en/tutorial.html うちのサーバーで動いてるサンプル http://nutch.happy-camper.st/ 6時間おきに新しいページを求めてネット上を徘徊して回ります。 2004/02/18 1日1回に変更。 1回のデータ更新で、3時間ほど費やされたら、1日の半分は巡回してることになる。 結構データもたまってるみたいだしね。 韓国人のLEEさんが立ち上げている、Nutchサポートサイト http://www.nut

  • Apache プロジェクトのクローラ Nutch を軽く試してみた - Solr, Python, MacBook Air in Shinagawa Seaside

    Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 GoogleYahoo! 等の検索ポータルが内部で使用していることで知られています。スパイダー(Spider)、ボット(bot)等といわれることもあります。 Nutch は 2009/3/23 についにバージョン 1.0 がリリースされました。 Nutch のインストールには JAVA 及び Tomcat が必要です。まだインストールしていない場合には先にインストールしておきます。しばらくアップデートしていない場合にアップデートしておいた方がよいでしょう。 以下を参考にしてください。 Linux で root 権限なしでも最新の JDK をインストールする1つのやりかた Linux

  • 1