手持ちのオンライン学習器で訓練データをメモリに載せず処理するモードがオンメモリで処理するモードに比べて5倍ぐらい遅いのが気になったので,Vowpal Wabbit みたく訓練データをキャッシュしてみることにした.まず準備として,Simple-9 と Variable byte code (vByte),さらに binary でそのまま保存する場合 (Raw) に,訓練データの符号化(入出力込み)/復号化 (入力のみ込み) の性能を比較してみた.普段使っている訓練データをx100倍したもの (約3000万訓練例, 819,841,000 integers) を入力.Disk Cache の扱いがいい加減だったので,再実験した.さらに,Group Varint Encoding の結果も追加した. 素性番号を適当につけた場合 (5952MiB) | Simple-9 | vByte |Grou