はじめに Turingアドベントカレンダー17日目です!今日は Research チームの柏谷が担当します。 Research チームでは、LLMによる完全自動運転を実現するための技術開発を行っています。その中で重要な技術の1つが量子化です。量子化によって少ビットでパラメータを表現できれば、LLM の膨大なパラメータのデータ圧縮が可能となります。量子化実装はいろいろと考えられますが、今回は実装にアクセス可能な llama.cpp とその量子化技術について見ていきましょう! llama.cpp とは Georgi Gerganov さんが作った PC の CPU だけで LLM が動くプラットフォームです。その名の通り Llama, Llama2 が動くというだけでなく Bloom, StableLM などいくつかの LLM がサポートされています。LLM は従来、データセンターで大量のGP
![llama.cpp の動かし方と量子化手法](https://cdn-ak-scissors.b.st-hatena.com/image/square/373e8d75b409b80f8dce9f5f1ea464c6d2323f0a/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--m1v_WfxT--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3Allama.cpp%252520%2525E3%252581%2525AE%2525E5%25258B%252595%2525E3%252581%25258B%2525E3%252581%252597%2525E6%252596%2525B9%2525E3%252581%2525A8%2525E9%252587%25258F%2525E5%2525AD%252590%2525E5%25258C%252596%2525E6%252589%25258B%2525E6%2525B3%252595%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3AMotofumi%252520Kashiwaya%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzBhNjYyMDc4ZDMuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3ATech%252520Blog%252520-%252520Turing%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EvQUNnOG9jTHRSRVM0cHJpX0RfNXEtYXVxM1RsaHJpY0VtTjRLdWt6RWl2OERTNnBiSGc9czk2LWM%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)