Amazon Web Services ブログ Amazon SageMaker で NVIDIA Triton Inference Server を使用してモデルサーバのハイパースケールパフォーマンスを実現する 機械学習 (ML) アプリケーションはデプロイが複雑で、多くの場合、1 つの推論リクエストを処理するために複数の ML モデルが必要です。典型的なリクエストは、前処理、データ変換、モデル選択ロジック、モデル集約、後処理などの複数モデルに渡る場合があります。これにより、シリアル推論パイプライン、アンサンブル (scatter gather)、ビジネスロジックワークフローなどの一般的な設計パターンが進化し、リクエストのワークフロー全体が有向非巡回グラフ (DAG) として実現されるに至りました。しかしながら、ワークフローがより複雑になるにつれて、これらのアプリケーションの全体的なレス
