タグ

障害対応と重要に関するmasayoshinymのブックマーク (2)

  • 障害対応でよくつかうコマンド覚書(逐次更新) - Qiita

    はじめに よく障害対応の際につかうコマンドの見方を自分でまとめていたものを一般公開してみる。 詳細についてはここを参考にせずにちゃんとmanをよみましょう! w ヘッダ部 現在の時刻 Uptime(システムが稼働している期間) 現在ログインしているユーザーの数 過去1,5,15minでのシステムのロードアベレージ Uptimeが短いと再起動した。 また、ロードアベレージの1が高く5,14が低いなら直近、 全部が高いなら継続、 1が低く他が高いならすでに問題が解消した可能性が高い。 下部 USER :ユーザ名 TTY : FROM :アクセス元 LOGIN:ログイン時間 IDLE :アイドル(現在時間-最後にttyにアクセスした時間)している時間 JCPU :そのttyから実行されている全プロセスが使った時間。これには 過去のバックグラウンドジョブは含まれないが、現在実行しているバックグラウ

    障害対応でよくつかうコマンド覚書(逐次更新) - Qiita
  • システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita

    IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です 弊社では数多くのWebサービス/アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。 なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。 障害対応フローチャート 一般的な感じだと思いますが、障害報告から対応完了までのフ

    システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita
  • 1