shunkeenのブックマーク / 2024年3月2日

shunkeen id:shunkeen

2024年3月2日のブックマーク (2件)

速報：話題の 1ビットLLMとは何か？｜寺田英雄（㈱オープンストリームCTO）
2024-02-27にarXiv公開され，昨日（2024-02-28）あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「１ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c
shunkeen 2024/03/02
“BNNの説明が理解できていれば、1.58ビットトランスフォーマーモデルを理解するのは簡単”／やっぱり前提知識がある人は理解の深さが違うんだなぁ。

AI

文章
リンク
既存日本語LLMをBitNetで置き換えて実行してみた｜はち
はじめに昨夜からBit Netという1bit量子化LLMが話題になっていました。簡単な概要としては、既存のLLMが１パラメータをFP16やBF16などのfloat型で扱っているものを、１パラメータで{-1, 0, 1}しか扱わない様にした。計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。（量子化手法としては初）ということだと思います。これは元々、今回の論文と同チームによって提案された"Bit Net: Scaling 1-bit Transf ormers for Large Language Models"という論文を拡張したものです。この時は１パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1
shunkeen 2024/03/02
1(.58)ビット量子化するのを前提に学習時にStraight-Through EstimatorとかRoundClipうんたらを使って学習しないと、量子化して推論したときに結果が振るわない的な話なのかな。手法の一部だけ取り入れても壊れるだけみたいな。

AI

文章
リンク
- 2024年3月24日
- 2024年3月2日
- 2024年2月27日