Microsoftの研究チームがモデルのウェイトを「-1」「0」「1」の3つの値のみにすることで大規模言語モデルの計算コストを激減させることに成功したと発表しました。 [2402.17764] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits https://arxiv.org/abs/2402.17764 従来のモデルであれば入力に対して「0.2961」などのウェイトをかけ算してから足し引きする必要がありましたが、「-1」「0」「1」の3値のみであればかけ算が不要になり、全ての計算を足し算で行えるようになります。 そのため、同じ性能を出すのに必要なコストが通常の大規模言語モデルに対して激減するとのこと。なお、それぞれのパラメーターが「-1」「0」「1」という3つの値を取るためlog[2](3)の値より「1.
![Microsoftが1.58ビットの大規模言語モデルをリリース、行列計算を足し算にできて計算コスト激減へ](https://cdn-ak-scissors.b.st-hatena.com/image/square/02749ba74c3a39cbe0a2218fbf1c742b4c39d2af/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F02%2F29%2Fmicrosoft-1bit-llm%2F00.png)