Sennaの場合には、文書数を166,512より多くしようとすると、メモリ確保の失敗が原因のsen_memory_exhaustedというエラーが発生し、インデックスに文書を追加できなくなりました。 http://thinkit.jp/article/744/1/ しっかりと反応しておきます。 対象文書サイズが4000000KB(≒4GB)を超えた場合インデックスが作成できないのは、 32bit OSを使っているからだと思われます。 64bit OSを使えば問題なくインデックスが作成できると思います。 あと、LuceneのN-gramの実験をやるんだったら、 SennaのN-gramの実験もやって欲しいなぁ…と思います。 次世代Senna(名称未決定…、名前変えることにしました)では さらに転置インデックスのサイズが圧縮できるように努力してまーす。 名前が思いつかないのが困り者… こういう