2023年1月31日のブックマーク (1件)

  • 『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp

    株式会社MIXIで『家族アルバム みてね』(⁠以下みてね)のSREグループに所属している間です。 みてねは現在、1,500万人を超えるユーザに175の国と地域でサービスを提供しています(2022年8月現在)。そこで、より高い信頼性と可用性を担保するためにみてねのSREグループではオンコールエンジニア制度を設けています。 今回はこの「みてねのSREグループにおけるオンコールエンジニア制度の取り組み」についてご紹介させて頂きます。 オンコールの定義 まず、どのような条件でアラートを設定しオンコールを実施するかの定義について簡単に触れておきます。 現在はさまざまなソースから多種多様な情報を収集することができます。 たとえば、みてねではKubernetesAmazon EKS)を採用しています。Kubernetesだけでも非常に多くのメトリクスが収集できますが、それだけではなくアプリケーション

    『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp
    ishikawa_pro
    ishikawa_pro 2023/01/31
    トレーニングの仕組み良い