タグ

ブックマーク / blog.yuuk.io (7)

  • “LLM for SRE“の世界探索 - ゆううきブログ

    ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

    “LLM for SRE“の世界探索 - ゆううきブログ
  • エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ

    この記事では、2023年9月29日に開催されたSRE NEXT 2023 IN TOKYOでの講演の概要に加えて、講演では触れられなかった部分の補足と、発表を終えての後記、最後にSRE NEXT全体の感想を書きました。 SRE NEXT 2020の基調講演に招いていただいたところから始まり、昨年のSRE NEXT 2022の公募セッションでも発表し、今回で3回目の発表になりました。今回の講演は、SRE NEXTの「NEXT」と価値観の一つである「Diversity」を踏まえて、自身のエンジニアと研究者の両方の経験を活かして、SREを深く実践する上で、技術論文を探して読むアプローチを提示するものです。昨今の国内のSREコミュニティでは組織的実践に主な関心が移っている状況と対比させて、コンピュータサイエンスに基づく技術的挑戦の可能性を示唆する意欲的な講演を目指したつもりです。 この講演での主要

    エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ
  • SRE NEXTで「AIOps研究録」講演を終えて - ゆううきブログ

    5月14-15日に開催されたSREの国内カンファレンス SRE NEXT 2022 ONLINEにて、「AIOps研究録―SREのためのシステム障害の自動原因診断」と題して、ITシステムに障害が発生した際に、機械学習・統計解析の手法を用いて、障害の原因を自動で診断するための研究について講演しました。 講演に用いたスライド資料を以下に公開しています。 当日に配信された講演動画は、Youtubeに公開されています。 なお、この記事では、AIOpsという用語を、機械学習や統計解析をはじめとするAI人工知能)と呼ばれる技術を用いて、ITオペレーターのオペレーション作業を自動化あるいは支援する技術の総称として使っています。 なぜAIOpsに着目したのか 自分が、統計や機械学習をはじめとするAIと呼ばれる技術をSRE分野に適用することを漠然と考えはじめたのは、2017年ごろでした。当時、今後のSRE

    SRE NEXTで「AIOps研究録」講演を終えて - ゆううきブログ
    ktykogm
    ktykogm 2022/06/10
  • 分散アプリケーションの依存発見に向いたTCP/UDPソケットに基づく低負荷トレーシング - ゆううきブログ

    この記事は、分散アプリケーションを構成するネットワークサービス間の依存関係マップを構築するための基礎技術の改善提案をまとめたものである。第8回WebSystemArchitecture研究会での発表と同等の内容であり、そのときのスライドを以下に掲載しておく。 また、手法のプロトタイプと評価実験のためのコードを次のGitHubリポジトリに公開している。 1. はじめに クラウドの普及により、サービス事業者は機能追加やアクセス増加への対応が容易となっている。その一方で、クラウド上に展開される分散アプリケーション内の構成要素の個数と種類が増加しているため、構成要素の依存関係が複雑化している。そのため、システム管理者が、システムを変更するときに、変更の影響範囲を特定できず、想定よりも大きな障害につながりうる。よって、システム管理者の手によらず、ネットワークサービス(ネットワーク通信するOSプロセ

    分散アプリケーションの依存発見に向いたTCP/UDPソケットに基づく低負荷トレーシング - ゆううきブログ
  • Linux eBPFトレーシング技術の概論とツール実装 - ゆううきブログ

    eBPF(extended Berkley Packet Filter)という用語を著者が初めてみかけたのは、2015年ごろだった。最初は、eBPFをその字面のとおり、パケットキャプチャやパケットフィルタリングを担うだけの、Linuxの新しいサブシステムであろうと認識していた。しかし、実際にはそうではなかった。 システム性能の分析のための方法論をまとめた書籍Systems Performance 1 の著者で有名なBrendan Greggが、Linuxのネットワークサブシステムとは特に関係ない文脈で、古典的なシステム性能計測ツールでは計測できないことを計測するツールを作っていた。その計測ツールがeBPFという技術によって実装されていることを知ったときに、eBPFに興味をもったのだった。また、eBPFは、システム性能を調べる用途以外にXDP(eXpress Data Path)と呼ばれるプ

    Linux eBPFトレーシング技術の概論とツール実装 - ゆううきブログ
    ktykogm
    ktykogm 2021/12/29
  • マイクロサービスにおける性能異常の迅速な診断に向いた時系列データの次元削減手法 - ゆううきブログ

    著者 坪内 佑樹(*1), 鶴田 博文(*1), 古川 雅大(*2) 所属 (*1) さくらインターネット株式会社 さくらインターネット研究所、(*2) 株式会社はてな 研究会 第7回Webシステムアーキテクチャ研究会 2010年代のクラウド技術であるコンテナオーケストレーション、サーバーレス、マイクロサービス、さらにはエッジコンピューティングなどの普及により、分散システムとしての複雑度が高まっている。このまま複雑度が高まっていくと、人手によるルールベースの運用にいずれは限界が訪れるのではないかと考えている。そこで、最近は、このようなクラウドを中心とするSRE分野の課題に対して、機械学習やその他の数理的アプローチを適用するアプローチを模索している。特に、SREの中でも、システムに発生する異常への対応については、現場のエンジニアの経験に基づき直感に大きく依存している。 異常への対応を構成する

    マイクロサービスにおける性能異常の迅速な診断に向いた時系列データの次元削減手法 - ゆううきブログ
    ktykogm
    ktykogm 2020/11/24
  • SRE NEXT基調講演を終えて - ゆううきブログ

    1月25日に開催されたSRE NEXT 2020 IN TOKYOにて、「分散アプリケーションの信頼性観測技術に関する研究」と題して、基調講演をさせていただきました。 これまで一環してWebオペレーション・SREに取り組んできて、今ではSRE Researcherと名乗っている身からすると、国内初のSREのカンファレンスで基調講演にお声がけいただいたことは大変名誉なことだと思っています。 基調講演について カンファレンスの基調講演は実ははじめての経験で、どのような発表をするかについては、いくらか逡巡することになりました。 SRE NEXTのオーガナイザーをされている@katsuhisa__さんからは、現在僕が取り組んでいる研究内容や、その研究背景として考えていることを講演してほしいという期待をいただきました。 同時に、カンファレンスのタイトルに含まれる「NEXT」には、参加者の皆様とSRE

    SRE NEXT基調講演を終えて - ゆううきブログ
    ktykogm
    ktykogm 2020/01/27
  • 1