さくらインターネット研究所の坪内(@yuuk1t)です。 私の個人ブログにて、クラウドのプラットフォームやクラウド上に展開されるアプリケーションの障害を大規模言語モデル(LLM)を用いて、自動で診断するための技術を提案する最新の研究動向を紹介する次の調査記事を書きました。 LLM for SRE“の世界探索 – ゆううきブログ 本記事では、この研究動向の調査をさくらインターネット研究所の研究活動の一環として位置づけ、調査の概要と動機、公開後に得られたフィードバック、今後の研究について紹介します。 調査記事の概要 我々は、SRE(Site Reliability Engineering)やAIOps(AI for IT Operations)の分野で、システム障害の自動検知・診断・対応に関する研究を行っています。LLMを使ったシステム障害診断は、SREの知識をLLMが学習し、障害発生時のシス