yuisekiのブックマーク - はてなブックマーク

巨大なLLMモデルをマルチGPUで動かす！～モデル分割方法による速度の違い～｜AIサトシ
Metaが405BのLLMをリリースし、オープンLLMにも巨大なモデルが増えてきました。スケーリング則に従い、巨大になるほど精細になり、能力も増えます。すべて巨大なモデルで推論処理を続けたいのですが、巨大になった時、メモリに載らないことと、推論速度の面で現実的に動かすことが困難となっています。コンシューマークラスのGPUのVRAMは最大24GB、 405Bモデルは、16bitでは、800GB以上、4bitでも200GBを軽く超えます。システムのメモリを256GB 積めば、CPUで推論可能ですが、1秒で1token以下となり、文章出力に時間がかかりすぎて実用性がありません。今回、マルチGPUでの推論速度に影響する因子を実際に調べてみました。測定マシンは、以前作成したRTX4090 x 2の自作ワークステーションですコンシューマー構成で最強を目指したパーソナルLLM推論機の稼
yuiseki 2024/08/26
あとで読む
リンク
時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む｜AIサトシ
論文の核心: Transf ormerモデルは、言語モデルや画像分析など様々なタスクで高いパフォーマンスを示していますが、時系列予測においては一部の問題点が指摘されています。この論文では、Transf ormerの一部の役割を反転させることで、これらの問題点を克服し、より効果的な時系列予測を行うiTransf ormerという新しいモデルを提案しています。この論文の新規性は、Transf ormerの構造そのものを時系列に特化させる点にあります。単純な構造変更で大幅な性能向上を実現できること。時系列予測におけるTransf ormer利用の在り方を提言しています。まずclaudeで要約してみます。要約第1段落: Transf ormerが自然言語処理やコンピュータビジョンで成功している一方、時系列予測では性能が線形モデル以下であることを指摘。時系列の特性上、Transf ormerの構造が不適
yuiseki 2023/10/14
リンク
Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する（事後学習を使わない方法を模索）｜AIサトシ
Llama2の日本語化を、デコーダーのカスタムで実現したい！初めに Metaが発表した高性能言語モデルであるLlama2 多言語対応して、日本語も対応している、しかし、返事が英語になってしまう傾向がつよく、日本語での利用で不便。。 Llama2の返答を日本語化する方法として、まず思いつくのは、事後学習として日本語データセットでファインチューニングするという方法であるが、事後学習での問題がある過学習傾向となりやすく、返答の柔軟性が低下することである（汎用性低下が危惧される）今回、推論時のデコーダーをカスタムすることで、日本語出力できないかを検討する方法、考察 Transf ormerの推論時、デコードをカスタムする１、日本語のUnicode範囲を指定２、デコード時の日本語トークンへ有利な調整をする Llama2などの多言語言語モデルでは、英語が主な学習対象であっても、英語での学
yuiseki 2023/09/18
リンク
1