[B! nutch] shrkwのブックマーク

Apache プロジェクトのクローラ Nutch を軽く試してみた - Solr, Python, MacBook Air in Shinagawa Seaside

Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られています。スパイダー(Spider)、ボット(bot)等といわれることもあります。 Nutch は 2009/3/23 についにバージョン 1.0 がリリースされました。 Nutch のインストールには JAVA 及び Tomcat が必要です。まだインストールしていない場合には先にインストールしておきます。しばらくアップデートしていない場合にアップデートしておいた方がよいでしょう。以下を参考にしてください。 Linux で root 権限なしでも最新の JDK をインストールする1つのやりかた Linux で

shrkw 2009/09/16

nutch

リンク

Kazuhiro's Weblog: 「Nutch」ですいすい情報収集　(クローリング機能を試す)

「Nutch」でウェブサイトをクローリングする方法を説明します。クローリングとは、簡単にいえば「ウェブサイトの情報を集めるてくれる仕組み」でしょうか。 (注) nutchを利用するには、unixがお勧めです。私は、「CentOS 4」をOSとし用いました。最初はwindowsでがんばろうと試行錯誤しましたが多くの無駄な時間をつかってしまうという結果に終わりました（ＴＴ）。「Nutch」利用したクローリングの方法には、 (A)ある特定のネットワーク(intranet)をクローリングする方法 (B)ウェブ全体(whole-web)をクローリングする方法の2つがあります。今回は、このblogサイト「http://kazuhiro.ty.land.to/blog/」を起点にして (A)の方法でクローリングする方法を紹介します。 (1)「Nutch」をインストールする「Nutch」の

shrkw 2009/09/16

nutch

リンク

[Solr] Nutchでサイトクロール

やってみた。 Nutchはウェブスパイダーとしてのクロール機能を提供している。内部に分散ファイルシステムたるHadoopを持っていのだが、今回はこれは使わない方法(のようだ)。 - - - - 1. Nutchを<a href="http://hudson.zones.apache.org/hudson/job/Nutch-trunk/">ダウンロード</a>し、解凍する。 tar xzf apache-nutch-1.0.tar.gz 2. Solrの設定を行う Nutchの中にはschema.xmlなどSolrを連携して使うためのサンプルの設定ファイルが含まれています。 a. schema.xmlの配置 apache-nutch-1.0/conf to directory apache-solr-1.3.0/example/solr/conf b. “content”フィールドの設定変

shrkw 2009/09/16

nutch

リンク

Nutch - PukiWiki

オープンソースな検索エンジン Nutch のインストールから設定まで本家サイト＋α † 本家サイトはこちら http://www.nutch.org/ 開発者向けページはこちら http://www.nutch.org/docs/en/developers.html このページの前半戦の参考ページはこちら http://www.nutch.org/docs/en/tutorial.html うちのサーバーで動いてるサンプル http://nutch.happy-camper.st/ ６時間おきに新しいページを求めてネット上を徘徊して回ります。 2004/02/18 １日１回に変更。１回のデータ更新で、３時間ほど費やされたら、１日の半分は巡回してることになる。結構データもたまってるみたいだしね。韓国人のLEEさんが立ち上げている、Nutchサポートサイト http://www.nut

shrkw 2009/09/16

nutch

リンク

Nutch & Solr Integration Tutorial | Lucidworks

Using Solr will be used as the only source for serving search results so you can decouple your search application from Nutch and still use Nutch where it is at its best: crawling and extracting the content. There is an updated version about Nutch Solr integration available at https://lucidworks.com//2010/09/10/refresh-using-nutch-with-solr/ The last time I wrote about integrating Apache Nutch with

shrkw 2009/09/16

nutch

リンク

Nutch と Solr の連携その1 〜 Nutch のインデックスを Solr からのぞいてみる〜 - Solr, Python, MacBook Air in Shinagawa Seaside

Nutch はクロールしたデータの管理に Lucene 形式のインデックスを使っています。このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webクローラ。内部データの管理に Lucene を使っている Lucene : 全文検索システムを実現するためのJavaのライブラリ Solr : Luceneを使って実装された全文検索システム Java のコーディングが得意な方は Lucene を使ってインデックスの中見ることができますが、そうじゃないボクのような人は Solr を使って見る方が楽かもしれません。ここではSolr から Nutch の Lucene 形式のインデックスをのぞいてみる方法について書いてみます。 Solrのインストールがまだな方は

shrkw 2009/09/16