今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。 何故そんな事をする必要があるんですか? まず、LLMのパラメータは本来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAM食う。だから、精度を下げちゃえば省メモリになっていんじゃね?という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。 量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit
![Command R+はどこまで量子化するとアホになってしまうのか?](https://cdn-ak-scissors.b.st-hatena.com/image/square/ab09be3d5f927e3602acd11c0c1d0a51ba042f00/height=288;version=1;width=512/https%3A%2F%2Fsoysoftware.sakura.ne.jp%2Fwordpress%2Fwp-content%2Fuploads%2F2024%2F04%2F20eb2a8afd2ed7a7f3b26eed5b2a85c4.png)