※この投稿は米国時間 2021 年 9 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。 はじめにVertex AI はフルマネージドのトレーニング サービス、Vertex AI Training を提供しています。このサービスは一連の事前構築済みアルゴリズムを提供しており、カスタム トレーニングを使用して ML モデルを作成できます。 機械学習(ML)エンジニアは、ML モデル トレーニングの責任を担っています。ほとんどの場合、トレーニングは正常に完了しますが、失敗することもあります。失敗した場合、エンジニアはカスタマー サポートに連絡して、問題のトラブルシューティングを依頼します。しかし、ML エンジニアが自分で対応できる ML トレーニングのサポートケースも比較的多いことがわかりました。この投稿では、ML モデル トレーニングの失敗を引き起こす 7 つ