はじめに Turingアドベントカレンダー17日目です!今日は Research チームの柏谷が担当します。 Research チームでは、LLMによる完全自動運転を実現するための技術開発を行っています。その中で重要な技術の1つが量子化です。量子化によって少ビットでパラメータを表現できれば、LLM の膨大なパラメータのデータ圧縮が可能となります。量子化実装はいろいろと考えられますが、今回は実装にアクセス可能な llama.cpp とその量子化技術について見ていきましょう! llama.cpp とは Georgi Gerganov さんが作った PC の CPU だけで LLM が動くプラットフォームです。その名の通り Llama, Llama2 が動くというだけでなく Bloom, StableLM などいくつかの LLM がサポートされています。LLM は従来、データセンターで大量のGP