障害に関するstntakuのブックマーク (3)

  • 【10分で確認】インフラ起因のシステム障害で焦らないための監視系コマンド集 - Qiita

    はじめに ベンチャー企業や立ち上がって間もない開発組織の場合、事業の成長スピードに対して、インフラ/SREエンジニアへのリソース不足が発生します。 スピード重視の結果、監視設計が不十分なままプロダクトがリリースされることも少なくないため、インフラに強いベテランの方のみが障害対応に当たらざるを得ず、周囲はただ応援するといった形もあるのではないでしょうか。 いざというとき、「アプリケーション起因じゃなければ、私は何もわからない...」とならないために、非インフラ/SREエンジニアでも最低限覚えておきたい障害発生時に役立つ監視系のコマンドをまとめてみようと思います。 記事で想定している読者は以下の通りです。 インフラ関連の障害時に、問題の切り分けを行うためのコマンドが知りたい人 監視系コマンドを実行できる環境構築をサクッと作って動かしながら学びたい人 非インフラ/SREエンジニアでインフラ起因

    【10分で確認】インフラ起因のシステム障害で焦らないための監視系コマンド集 - Qiita
  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

  • 立川市役所の庁内LAN障害、原因は「Edgeブラウザーへの移行」

    2022年6月27日、東京・立川市役所で大規模な通信障害が発生した。出先機関を含めた1000台以上のパソコンで終日、窓口作業ができなくなった。庁内LANの心臓部となるコアスイッチの障害が原因だった。コアスイッチに向けて大量の通信が発生し、メモリー不足に陥った。原因特定に時間がかかり、完全復旧に1週間を要した。 グループウエアの挙動がどうもおかしい――。東京都立川市役所の庁舎内がざわつき始めたのは2022年6月27日、始業時刻である午前8時半ごろのことだ。ほどなく市役所のITインフラストラクチャー運営を担う総合政策部情報推進課のもとに、「窓口業務用の情報システムにアクセスしづらい」「内線電話が通じなくなった」といった職員らの困惑した声が続々と寄せられるようになった。 情報推進課はただちに障害箇所の特定に乗り出した。庁内ネットワークのメンテナンスを委託している保守事業者と連絡を取り合い、担当

    立川市役所の庁内LAN障害、原因は「Edgeブラウザーへの移行」
  • 1