タグ

2023年11月3日のブックマーク (2件)

  • Kubernetes、何をどうやって監視する? ~ 食べログにおけるオンプレKubernetes監視事例紹介 ~ - Tabelog Tech Blog

    目次 はじめに べログにおけるKubernetes化のモチベーションとその進み具合 Kubernetesというインフラにおける監視戦略 監視システムは作り込むのではなく買う あらゆるコンポーネントのゴールデンシグナルを観測する なるべく一箇所からあらゆるメトリクス/ログをクエリできるようにする メトリクスデータには決められたラベルを付与する べログにおけるKubernetes監視のwhatとhow 監視データの置き場 ログデータ置き場 メトリクスデータ置き場 監視している内容 ゴールデンシグナルの監視 容量監視 ロギング 監視ツールの監視 べログにおける監視失敗事例 事例1: Pod総数爆増によるクラスタ全体のスローダウン 事例2: 同一DeploymentのPodが同時にevictされたことによるサイト閲覧障害 おわりに はじめに べログ 技術部 SREチームの下國 峰昌と申しま

    Kubernetes、何をどうやって監視する? ~ 食べログにおけるオンプレKubernetes監視事例紹介 ~ - Tabelog Tech Blog
    higed
    higed 2023/11/03
  • SREがたどる4つのフェーズ - Paper2 Blog

    SREのプラクティス導入による文化面の変化などを踏まえ、「火消し」「門番」「パートナー」「触媒」の4フェーズを紹介します。自チームの現状把握と今後の方向性を検討する上での材料になったら幸いです。*1 火消しフェーズ 火消しフェーズ 初期段階では開発チームが機能開発のタスク(Feature Task)に注力し、サービスに必要な信頼性に関するタスク(Reliability Task)が対応領域に含まれないことがあります。このフェーズではSREチームが火消し部隊としてReliability Taskを巻き取り、信頼性の向上に努めます。コラボレーションなどは考慮されず、火消しが最優先となります。そのため、Reliability TaskはSREチームだけが処理するものとなっていき、後の門番フェーズに突入します。 門番フェーズ 門番フェーズ 信頼性に関するタスクの大部分をSREチームが対応しているフ

    SREがたどる4つのフェーズ - Paper2 Blog
    higed
    higed 2023/11/03