米Googleは3月24日(現地時間)、新たな圧縮手法「TurboQuant」に関する研究により、LLMを実行するために必要なメモリ量を6分の1に削減できる可能性があると発表した。 この技術は、AIモデルが情報を処理する際に用いる高次元ベクトルデータのサイズを極限まで圧縮し、大規模AIや検索エンジンにおけるメモリのボトルネックを解消するものという。特に、LLMの推論時に頻繁に使用される情報を一時保存する「キーバリュー(KV)キャッシュ」の圧縮において、モデルの精度やパフォーマンスを犠牲にすることなく大幅な効率化を実現するとしている。 TurboQuantは、データの構造を単純化して大部分の圧縮を行う「PolarQuant」と、そこから生じた微小な誤差を1ビットのデータで数学的に補正する「QJL」という2つの手法を効果的に組み合わせている。これにより、事前の追加学習やファインチューニングを行

