はじめに Azrue OpenAI Service に クォータ管理が追加されました。Azure OpenAI Service を含むアーキテクチャー検討にも影響する重要な機能追加ですので情報をまとめました。 クォータ管理でできること クォータ管理を使うと、ユーザーのサブスクリプション・リージョンごとに与えられた Tokens Per Minute (TPM) のクォータを、各デプロイに対してユーザー任意の値 (1K 単位) で割り当てることができます。これにより、独自にスロットリングを実装しなくてもワークロードごとに利用できる TPM に制限をかけることができるようになりました。 なお、Requests Per Minute (RPM) に関しては、今後は 1K TPM あたり 6 RPM という値が自動的に適用されるようです。 デプロイが作成されると、割り当てられた TPM は、推論要
![Azure OpenAI Service の クォータ管理](https://cdn-ak-scissors.b.st-hatena.com/image/square/c82e928a5171f84fdeab24221d319b80c076e63c/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--lEzkBtpP--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3AAzure%252520OpenAI%252520Service%252520%2525E3%252581%2525AE%252520%2525E3%252582%2525AF%2525E3%252582%2525A9%2525E3%252583%2525BC%2525E3%252582%2525BF%2525E7%2525AE%2525A1%2525E7%252590%252586%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3Aryohtaka%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2MzZDNiN2I3OGYuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3AMicrosoft%252520%252528%2525E6%25259C%252589%2525E5%2525BF%252597%252529%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2U5NzVkNmI1Y2MuanBlZw%3D%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)