タグ

障害と対応に関するlocke-009のブックマーク (3)

  • 障害対応は寝て、食べるが大事 - Qiita

    「 障害対応 」 エンジニアができるだけ見たくない単語ですね。 でも人間が作っているシステムである以上おそらく避けては通れない道... 実は直近で障害対応を経験し、正直すごくしんどい思いをしました。 今回はその教訓を記事に起こしたいと思います。 障害&起こったこと 2月某日クライアントから障害報告が来ました。 幸い既に障害原因箇所が今後は動かないコードの部分だったのでシステム自体の改修はありませんでした。 ですが、障害報告として対象データの洗い出しを行う必要がありました。 結構対象データの件数もあったのですが、粛々と対象しないといけないです。 一通り調査し、報告したところ トラブル発生 ... 調査結果に不備が見つかってしまいました。。。。 障害が起きている時点でクライアントは結構噴火寸前。 もちろん厳しいお言葉をいただきました。。。。 その後も続く調査&報告....そして厳しいお言葉の数

    障害対応は寝て、食べるが大事 - Qiita
  • IaaS障害、ユーザー企業はどう対処すればいい? クラウドベンダーが教える対応法と振り返り

    IaaS障害、ユーザー企業はどう対処すればいい? クラウドベンダーが教える対応法と振り返り(1/2 ページ) 天災や人的ミスなどで起きるIaaS障害。ユーザー企業にとっては防ぐのが難しい問題で、基的に障害解消に向けてユーザー企業側でできることはほぼない。待つしかないのだ。 しかし、IaaS障害に端を発する自社サービスやシステムの障害はユーザー企業側でどうにかしなければならない。IaaS障害が発生してから復旧までの間やその後の対応など、ユーザー企業はどう行動すればいいのか。 今回はさくらインターネットでクラウド事業部の副部長を務める大久保修一氏に、IaaS障害発生時の対応方法を聞いた。重要なのは「事前の備え」と「事後の振り返り」だ。 特集:IaaSの冗長性確保 "金融機関や官公庁、政府までもが基幹系システムをクラウド環境に移行する“クラウドファースト”時代。しかし、近年はIaaSベンダ

    IaaS障害、ユーザー企業はどう対処すればいい? クラウドベンダーが教える対応法と振り返り
  • MySQLで3億レコード物理削除した話 - Qiita

    はじめに こんにちは。webエンジニア社会人をしている ningenMe です。 タイトル通り。MySQLで3億レコード物理削除した話。 ちょっとハマったので備忘録。 はじまりはアラート はじまりはアラートだった。 僕が運用・保守しているバッチサーバでは、mysqlからちょうど直近1ヶ月分のデータを毎日1回selectする定期処理をしている。 いつもなら1時間程度で終わる処理のはずが、その日は7,8時間経っても終わらずアラートが鳴り止まない.....。 原因追求 とりあえずリトライしたり、ログ見たりしたもののあんまり悪いところがなかった。 クエリもちゃんとindex効いてる。なんでだろうと思ったらDBの容量が結構大きくなっていたことに気づいた。 3億5千レコード。インデックスちゃんと効いてたので多分普通に遅いだけっぽい。 必要なデータ取得は1ヶ月分である12'000'000件ほど。このse

    MySQLで3億レコード物理削除した話 - Qiita
  • 1