こんにちは。 技術本部研究開発部の高橋寛治です。 SageMakerのInf1推論エンドポイントで機械学習モデルを試したので紹介します。 部分的に紹介しているため、SageMakerやHuggingFaceを使ったことがないと、わかりづらいかと思いますがご了承ください。 目的 現在SageMakerの推論エンドポイントで、独自コンテナの機械学習モデルを稼働させています。 これをコスパよく、より高速に動かしたいというのが今回の目的です。 Inf1インスタンス Inf1インスタンスは、機械学習の推論に特化したAWS Inferentiaチップを搭載したインスタンスのことです。 GPUインスタンスよりもスループットが高く、推論あたりのコストが低いことが特徴です。 Inf1インスタンスで上記の恩恵にあずかるために、「モデルのコンパイル」と「推論環境の構築」が必要となります。 モデルのコンパイル 今