タグ

apacheとtarに関するikeikeikeikeのブックマーク (1)

  • 導入と基本的な使い方 - Nutch調査録(mwSoft)

    導入と基的な使い方 - Nutch調査録 概要 LinuxでNutchのソースを落としてantして、適当にコマンドを打ってみる。 @Author mwSoft @Date 2010/12/11 @Env Nutch1.2/Fedora14 Nutchとは NutchはLucene(全文検索エンジン)のサブプロジェクトとして開発された、Java製のクローラ。Webのリンクをたどりながらいい感じにページを収集して、いい感じにスコアを付けて、いい感じに全文検索(Lucene)用のインデックスも生成してくれる。 内部的にはHadoopのMapReduceを多用しているので、情報量が増えてもマシンを分散することでで対応することができる。 ダウンロードからantまで 以下の公式サイトから、Resources → Download → apache-nutch-1.2-src.tar.gz を落とす。

  • 1