最近Luceneを使ってみている。Luceneを使って実験用のブログ検索エンジン(ぽいもの)を作っているが、とにかくインデクシングが遅い。Nutchでは、Luceneのインデックスをいくつものマシンに作成して、インデクシング/検索共に分散してやることが推奨されているようだが、残念ながら常時占有できるマシンがたくさんあったりはしない。 Luceneの本によれば、マルチスレッドでメモリ上にインデックスを作成して、あとでまとめて1つのインデックスをファイルシステム上に作るというのが、Luceneのインデクシングを高速化する常套手段らしい。しかし、それで高速化できるのは最大でも(インデックスのマージにかかる時間が0としても)1つのマシン上のCPU数だけで、大幅な高速化はできない。 そこで、複数のマシンでメモリ上にできるだけ大きな(メモリぎりぎりの)インデックスを作成し、それをファイルに書き出してネ