KubernetesでGPUを使う 一般的なWebアプリケーションと比較してMachine Leaning(ML)は複雑なインフラを要求する.Data processingを行う環境やModelのTraining/Validationを行う環境,実際にサービスからModelを利用するためのServingの環境といった複数の異なる環境が必要であり,WorkloadによってはCPUだけではなくGPUも必要になる.これらを効率的に扱うためのインフラを構築・運用するのは容易でなくGoogle and Uber’s Best Practices for Deep Learningにあるようにこれまで培われてきたDevOpsの知見を結集していく必要がある. このような複雑なMLのインフラとしてContainerとKubernetesが利用されることが多くなってきている.特に複数の環境間のPortabi