2023年10月3日のブックマーク (2件)

  • ツールの補助で効率的に研究論文を読む

    今や機械学習と言えばほぼディープラーニング、つまり多層のニューラルネットワークを指すようになった。ニューラルネットワークによる識別手法や生成手法で溢れる昨今だが、それらとは別の用途にニューラルネットワークを活用する例も増えてきている。 Ne... ブログにディープラーニング関連の手法まとめ記事を投稿するのは3年ぶりか。 自分の疑問に答えるように、自分の理解の穴を埋めるように改めて関連分野も調べて図に起こしていたらだいぶ手間がかかってしまった。 3Dコンピュータビジョンは概念を3次元的に図示できるので直感的に理解しやすいはずだが、作図に手間がかかるのか論文にはちゃんとした概念図があまり載っておらず、過去のCG分野の論文の引用で説明が済まされている範囲が多く感じた。 精読することで、参考図書に載っていた概要説明に一部誤りがあることにも気づけた。 自分の理解度の確認には、やはり自分なりに記事にま

    ツールの補助で効率的に研究論文を読む
    stang499
    stang499 2023/10/03
  • 大規模モデルを単一GPUで効率的に学習する方法|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

    大規模モデルを単一GPUで効率的に学習する方法|npaka
    stang499
    stang499 2023/10/03