※ この記事は別のサイトで2018年12月08日に公開していた記事をコピーしたものです. この記事について 普段からオンプレのKubernetesクラスタを使った研究開発に携わっており、LANケーブルの配線から新バージョンのKubernetesやエコシステムの検証、構築、運用保守、独自ツールの開発に加えてフロントエンドのGUIをmaterial-uiで作ったりとほぼ全レイヤをやっています。 今回は機械学習の実行基盤としてKubernetesを運用してきたなかで得られた知見について書いていきます。 運用中のKubernetesクラスタについて 運用しているKubernetesクラスタはオンプレミスのCPUサーバとGPUサーバの混合構成で、さらにGPUサーバは複数の世代のGPUが混ざっています。 データサイエンティスト向けに内製した機能を持つことが大きな特徴ではありますが、用途は機械学習に限定