既存日本語LLMをBitNetで置き換えて実行してみた｜はち

テクノロジーカテゴリーの変更を依頼記事元:

note.com/hatti8

31 usersがブックマークコメント

コメント

5

記事へのコメント5件

注目コメント
新着コメント

misshiki “結論を先に述べますが、ただ置き換えただけだと使い物にならなかったです。やはり事前学習から行う量子化手法なんだと思います。”

2024/03/04 リンク

misshiki “結論を先に述べますが、ただ置き換えただけだと使い物にならなかったです。やはり事前学習から行う量子化手法なんだと思います。”

2024/03/04 リンク

otakumesi 単純な置換ならそうなるだろうなとは思うけれど、何らかのデータセットで追加事前学習してみたどうなるだろう

2024/03/03 リンク

kei_1010 https://github.com/Beomi/BitNet-Transformers/ を使わない理由を書いて欲しい。

2024/03/02 リンク

shunkeen 1(.58)ビット量子化するのを前提に学習時にStraight-Through EstimatorとかRoundClipうんたらを使って学習しないと、量子化して推論したときに結果が振るわない的な話なのかな。手法の一部だけ取り入れても壊れるだけみたいな。

AI
文章

2024/03/02 リンク

sato-gc 早い。個人的には0を含む3値であることが重要であるように思うので、これだけでは実力はわからんよね

2024/03/01 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

既存日本語LLMをBitNetで置き換えて実行してみた｜はち

はじめに昨夜からBit Netという1bit量子化LLMが話題になっていました。簡単な概要としては、既存のLLM... はじめに昨夜からBit Netという1bit量子化LLMが話題になっていました。簡単な概要としては、既存のLLMが１パラメータをFP16やBF16などのfloat型で扱っているものを、１パラメータで{-1, 0, 1}しか扱わない様にした。計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。（量子化手法としては初）ということだと思います。これは元々、今回の論文と同チームによって提案された"Bit Net: Scaling 1-bit Transf ormers for Large Language Models"という論文を拡張したものです。この時は１パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

ブックマークしたユーザー

jp-myk2024/04/10
cu392024/03/08
misshiki2024/03/04
midas365452024/03/04
dhesusan46492024/03/03
flying-cat2024/03/03
NOkon2024/03/03
yoshi_yoshi_442024/03/03
nukosan5552024/03/03
otakumesi2024/03/03
kei_10102024/03/02
d6rkaiz2024/03/02
writers-high2024/03/02
triceratoppo2024/03/02
shunkeen2024/03/02
hidelocal2024/03/02
jack09092024/03/02
tasukuchan2024/03/01

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx