はじめに 索引データの保存に関する記事を読んだのでメモ。 索引データの効率的な保存 ドキュメント数やできた索引数が多くなるにつれ、効率的に索引データを保存することが重要になってくる 工夫して索引データを保存することで、いろんなメリットがある メモリの節約 ディスクのIO処理が減って読み込みスピードアップ 各手法 例えば転置インデクスでの索引では「索引単語:ページ番号1、ページ番号2、、、」という感じになっているので、右側のページ番号(整数列)を効率よく格納することを考える。 整数列をそのまま保存するのではなく、ソートしてその差分を保持するようにして符号化することで、効率よく格納することを考える。 VarByte バイト単位の操作のみで符号化できる 整数を1〜5byteで符号化(最上位1bit+下位7bit) 整数の1byte分読み込む 下位7bitに整数を入れる。もし、もとの整数が入りきら