こんにちは。Fintech SREの佐藤隆広(@T)です。 この記事は、Merpay & Mercoin Tech Openness Month 2025 の11日目の記事です。 Google社が提唱し、Site Reliability Engineering Bookによって広く知られるようになったSREの信頼性マネジメントは、開発と運用の関係性を再定義し、SLI/SLOとエラーバジェットに始まり、Availability・Latency・エラーレート・トラフィック・リソース飽和度・耐久性といったような指標で補強されてきました。 ところが近年、大規模言語モデル(LLM)の進歩が著しく、サービスにLLMを利用する機会が増えることによって、 プロンプトを数行変えただけで回答品質が変動する Latencyやエラーレートが良好でも幻覚(ハルシネーション)が急増する モデルの軽微なアップデートで回
