triceratoppoのブックマーク - はてなブックマーク

BitNet&BitNet b158の実装①｜はち
はじめに先週発表された論文『The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits』は多くの人に衝撃を与えたと思います。それまで量子化とは、有り体に言えば性能を犠牲にメモリ等のコストを抑える手法でした。しかし、Bit Net b158(*)では量子化手法としては初めてオリジナルを超える性能を出す可能性を魅せてくれました。 * Githubにある実装名から。以後この記事では名前で元のBit Netとは区別したいと思います。そんなBit NetとBit Net b158ですが、論文の著者たちからは正式な実験コードが公開されていません。なので、有志の方々が論文を眺めながらあれこれ実装していているのが現状です。そして、今の所論文の内容を完全に再現できているものはない気がします。（弱々エンジニアの私の理解不足な可能性も大いにあ
triceratoppo 2024/03/07
リンク
既存日本語LLMをBitNetで置き換えて実行してみた｜はち
はじめに昨夜からBit Netという1bit量子化LLMが話題になっていました。簡単な概要としては、既存のLLMが１パラメータをFP16やBF16などのfloat型で扱っているものを、１パラメータで{-1, 0, 1}しか扱わない様にした。計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。（量子化手法としては初）ということだと思います。これは元々、今回の論文と同チームによって提案された"Bit Net: Scaling 1-bit Transf ormers for Large Language Models"という論文を拡張したものです。この時は１パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1
triceratoppo 2024/03/02
リンク
1

はてなブックマーク

タグ

ブックマーク / note.com/hatti8 (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / note.com/hatti8 (2)

BitNet&BitNet b158の実装①｜はち

既存日本語LLMをBitNetで置き換えて実行してみた｜はち

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス