はじめに はじめまして、機械学習エンジニアリングチームのsugasugaです。 今回の記事では、弊チームが管理するMLOps基盤の技術選定や構成内容を紹介させていただきます。 背景 ピクシブ株式会社はさまざまなサービスがありますが、イラスト投稿SNSであるpixivのサーバーはオンプレミスで動いています。 これまでは、GCP上でモデルの学習やバッチ推論を行い、データをオンプレミスに同期した上でレコメンドを提供していました。 しかし、最近になって新たにリアルタイムで推論する機能の必要性が生じました。 当初は、これまで通りオンプレミスでの推論基盤の構築を検討しましたが、マシンの新規調達が難しい状態でした。また、搭載されるアプリケーションの数が将来的に変動する可能性があったり、トラフィック数が予測できないという状態でした。 そのため、必要なリソースを必要なタイミングで確保できる形態の方が好ましい