タグ

ブックマーク / note.com/aisatoshi (3)

  • 巨大なLLMモデルをマルチGPUで動かす!~モデル分割方法による速度の違い~|AIサトシ

    Metaが405BのLLMをリリースし、オープンLLMにも巨大なモデルが増えてきました。 スケーリング則に従い、巨大になるほど精細になり、能力も増えます。 すべて巨大なモデルで推論処理を続けたいのですが、 巨大になった時、メモリに載らないことと、推論速度の面で現実的に動かすことが困難となっています。 コンシューマークラスのGPUVRAMは最大24GB、 405Bモデルは、16bitでは、800GB以上、4bitでも200GBを軽く超えます。 システムのメモリを256GB 積めば、CPUで推論可能ですが、1秒で1token以下となり、文章出力に時間がかかりすぎて実用性がありません。 今回、マルチGPUでの推論速度に影響する因子を実際に調べてみました。 測定マシンは、以前作成したRTX4090 x 2の自作ワークステーションです コンシューマー構成で最強を目指した パーソナルLLM推論機の稼

    巨大なLLMモデルをマルチGPUで動かす!~モデル分割方法による速度の違い~|AIサトシ
  • 時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む|AIサトシ

    論文の核心: Transformerモデルは、言語モデルや画像分析など様々なタスクで高いパフォーマンスを示していますが、時系列予測においては一部の問題点が指摘されています。 この論文では、Transformerの一部の役割を反転させることで、これらの問題点を克服し、より効果的な時系列予測を行うiTransformerという新しいモデルを提案しています。 この論文の新規性は、Transformerの構造そのものを時系列に特化させる点にあります。単純な構造変更で大幅な性能向上を実現できること。時系列予測におけるTransformer利用の在り方を提言しています。 まずclaudeで要約してみます。 要約 第1段落: Transformerが自然言語処理やコンピュータビジョンで成功している一方、時系列予測では性能が線形モデル以下であることを指摘。時系列の特性上、Transformerの構造が不適

    時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む|AIサトシ
    yuiseki
    yuiseki 2023/10/14
  • Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する(事後学習を使わない方法を模索)|AIサトシ

    Llama2の日語化を、デコーダーのカスタムで実現したい! 初めに Metaが発表した高性能言語モデルであるLlama2 多言語対応して、日語も対応している、 しかし、返事が英語になってしまう傾向がつよく、日語での利用で不便。。 Llama2の返答を日語化する方法として、まず思いつくのは、事後学習として日語データセットでファインチューニングするという方法である が、事後学習での問題がある 過学習傾向となりやすく、返答の柔軟性が低下することである(汎用性低下が危惧される) 今回、推論時のデコーダーをカスタムすることで、日語出力できないかを検討する 方法、考察 Transformerの推論時、デコードをカスタムする 1、日語のUnicode範囲を指定 2、デコード時の日語トークンへ有利な調整をする Llama2などの多言語言語モデルでは、英語が主な学習対象であっても、英語での学

    Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する(事後学習を使わない方法を模索)|AIサトシ
    yuiseki
    yuiseki 2023/09/18
  • 1