本稿は、提示されたColabノートブック(mnist_t4_ultrafast_inference_v7.ipynb)の内容をベースに、「6年前世代のGPU(Tesla T4)」でMNIST推論を毎秒2,800万枚級で回すために効いた最適化を、再現可能な形で体系立てて整理するためのものです。 1. 実測結果(事実) このノートブックはGoogle ColabのT4ランタイムで実行するためのものです。 実行環境は下のようなものです。 実行環境 GPU: Tesla T4 PyTorch: 2.9.0+cu126 CUDA: 12.6 ベンチ入力: Throughput: x_thr.shape = (1024, 784)(batch=1024) Latency: x_lat.shape = (1, 784)(batch=1) 入力dtype: float16(GPU常駐) ベースライン vs