タグ

GPUとdeeplearningに関するskypenguinsのブックマーク (2)

  • 大規模モデルを支える分散並列学習のしくみ Part1

    はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning より またScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動

    大規模モデルを支える分散並列学習のしくみ Part1
  • ディープラーニングと機械学習の技術要件

    英国のIT専門媒体、「The Register」とも提携し、エンタープライズITのグローバルトレンドを先取りしている「The Next Platform」から、@IT編集部が独自の視点で“読むべき記事”をピックアップ。プラットフォーム3へのシフトが急速に進む今、IT担当者は何を見据え、何を考えるべきか、バリエーション豊かな記事を通じて、目指すべきゴールを考えるための指標を提供していきます。 1980年代から、私は機械学習の最前線に立ってきた。当時は米国ロスアラモス国立研究所で理論部門のスタッフ研究者として、機械学習の基礎研究を行っていた(後年になってこうした研究をさまざまな分野に応用した。機械学習に基づく創薬企業を共同で創業したこともある)。幸運にも、私は機械学習分野の誕生に関わり、後にこの分野がブームを巻き起こしたものの、この技術とその実力に関する誤解から、結局、ブームがしぼんだのを目の

    ディープラーニングと機械学習の技術要件
  • 1