前回のあらすじとこの記事の目的 前編: ハードウェアの速度をどう評価するか考える(1) ~クロック、OPS~ 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めることです。 本記事を通し、あるアルゴリズムが速度が十分に出ない時、それがハードウェアのどの性能(メモリか演算)に律速されてるかイメージできるようになるのが目標です。 しかし前編は子供が起きたので前編は演算速度だけで終わってしまった! 今回は起きる前にメモリ律速まで書くぞ! アチアチのGPUお待ち! 前回のあらすじとこの記事の目的 メモリ律速 メモリが重要なワケ GPUから読み解くメモリバンド幅 ルーフラインモデル Further comments TPU vs GPU FP16, BF16, TF32などの低精度Mixed Precision学習 メモリ律速 脱線したが本線のメモリ