ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化｜AIサトシ

テクノロジーカテゴリーの変更を依頼記事元:

note.com/aisatoshi

5 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "Mistral-7B: v0.2以降のアップデートでSWAは排除 + 入力トークンを絞ることでメモリ容量を低減すれば当然複雑性や表現力が低下 / KVキャッシュ量子化: 計算結果を保存して再利用 + 消費者向けGPUでより長いテキスト生成が可能"

2024/05/29 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化｜AIサトシ

大規模言語モデル（LLM）において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です... 大規模言語モデル（LLM）において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。プロンプトに入力する文字数（Token数）と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

performance

ブックマークしたユーザー

triceratoppo2024/05/30
R2M2024/05/30
sh199107112024/05/29
ZAORIKU2024/05/28

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx