Nutchというクローラ、インデクサ、検索を行なうオープンソースがあったので、 軽く触ってみた。 Nutch内部ではLucene、Hadoopが動作してるようなので、勉強にはちょうどいいかと思う。 早速、インストールから動作までの解説をする。 ■クローラ 1.Nutch本体ダウンロード、解凍 # tar -xvzf nutch-0.9.tar.gz # mv nutch-0.9 /usr/local/nutch 2.環境変数にパスを通す # vi /etc/bashrc export NUTCH_HOME=/usr/local/nutch export PATH=${NUTCH_HOME}/bin:${PATH} # source /etc/bashrc 3.クロール先を決める クロール先URLリストを作成する。 今回は2サイトをクロールする予定。 # cd ${NUTCH_HOME} #