タグ

ブックマーク / zenn.dev/solwat (2)

  • 「監視しているのになぜ気づかない」を解消した3つの施策

    「監視ツールは入れています。アラートも設定しています。でも障害は、ユーザーから教えてもらっています」 これを、複数の組織で聞いた。そのたびに少し複雑な気持ちになる。問題はツールではないからだ。 「入れているのに気づかない」の原因は、たいてい同じ3つの場所にある。複数の組織で同じパターンを見ていると、それが確信に変わった。設定の問題というより問いの立て方の問題だ。 「監視できている」の定義が、ずれていた 監視の目的を「インフラが正常かどうか確認すること」だと定義すると、多くの組織では「監視できている」になる。CPUは正常、メモリは正常、エラーレートも閾値内。それを見て「問題ない」と判断する。 ところがその間に、ユーザーは「画面が真っ白」「ボタンが押せない」という体験をしている。 あるチームの支援に入ったとき、まさにその状況だった。監視ダッシュボードはすべてグリーンだ。それでも「ユーザーから使

    「監視しているのになぜ気づかない」を解消した3つの施策
  • インフラ設定は「人の目」に頼るな──Policy as CodeでCIを番人にした話

    セキュリティグループのCIDR設定について、同じ指摘を3回レビューコメントに書いた。1回目は「うっかり」で済ませ、2回目で「仕組みで防げるな」と思い始め、3回目のとき「これはレビューで防ぐ問題ではない」と腹が決まった。 アプリ開発者からキャリアをスタートしSREに転向し、Webサービスの立ち上げからPlatform SREまで4社で担ってきた。あるWebサービスのSREチームで、Policy as CodeをCIパイプラインに組み込んだ。この記事はその記録だ。 何が問題だったか 当時、複数の開発チームがTerraformでインフラを管理していた。変更のたびにSREチームへのレビュー依頼が来る運用だったが、問題が2つあった。 一つは「レビュアーによって指摘内容が変わる」ことだ。自分がいるときはセキュリティグループの開放範囲を必ずチェックするが、別のメンバーが担当した日は見落とされることがあっ

    インフラ設定は「人の目」に頼るな──Policy as CodeでCIを番人にした話
  • 1