http://d.hatena.ne.jp/intheflight/20100107/p1 の続き 前回のModelを見直してN-gramの転置インデックスのModelが明らかに冗長な構造をしていることに気付いた。N=2として、その2文字をModelのkey_nameとして使えばもっとシンプルになるのではないか。N-gramのすべての2文字はユニークなんだし。幸いModelのkey_nameはUnicodeも大丈夫なようなので、Modelを以下のように書き換えた。ついでにテキストのModelキーと文字の位置情報を一つにまとめていたindex_listをまとめずにtext_listとposition_listに分割したまま保存することにした。 http://gist.github.com/270211 http://yuribossa.appspot.com/zenbun/index fro