Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webクローラ。内部データの管理に Lucene を使っている Lucene : 全文検索システムを実現するためのJavaのライブラリ Solr : Luceneを使って実装された全文検索システム Java のコーディングが得意な方は Lucene を使ってインデックスの中見ることができますが、そうじゃないボクのような人は Solr を使って見る方が楽かもしれません。 ここではSolr から Nutch の Lucene 形式のインデックスをのぞいてみる方法について書いてみます。 Solrのインストールがまだな方は