タグ

障害に関するkinokomaruのブックマーク (3)

  • AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告

    AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告 2019年8月23日金曜日の午後に発生したAWS東京リージョンの大規模障害について、AWSは追加の報告を行い、複数のアベイラビリティゾーンで稼働していたアプリケーションでも障害の影響があったことを認めました。 下記は大規模障害の報告ページです。赤枠で囲った部分が、8月28日付けで追記されました。 当初の報告は、障害の原因が空調装置のバグであり、それが引き金となってサーバーのオーバーヒートが発生したことなどが説明されていました。 そして障害の影響範囲は単一のアベイラビリティゾーンに閉じており、 複数のアベイラビリティゾーンでアプリケーションを稼働させていたお客様は、事象発生中も可用性を確保できている状況でした。 と説明されていました。 複数のアベイ

    AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告
  • システム障害対応に対する考え方について

    ヴィス @2vis 社内システムが普通に12月32日なって 「どーなってるんですか!」とユーザに言われて、 しらねーよ俺作ってねーよとは言えず呼び出されたことがw 2014-01-01 02:57:47 ヴィス @2vis 後、汎用機で1月1日になったら急に送受信が止まって呼び出されたときに… MMCFに「expire:20〷」って設定がされてた。 訳:期間満了って事 こんな地雷設定しこむんじゃねー!と叫びたくなったよw 2014-01-01 03:00:57

    システム障害対応に対する考え方について
    kinokomaru
    kinokomaru 2014/01/02
    WBは秀逸だ / 正直報告ってそこまで細かく報告してもしょうがないのと、後、とにかく「聞くだけ聞きたい」って人が無茶増えるのでそれにいちいち報告しない(なのでホワイトボード)
  • 2月5日に発生した障害について‐ニコニコインフォ

    2月5日に発生した障害について 2011年02月06日Tweet 昨日のニコニコ動画サーバ障害ではプレミアム会員、一般会員問わず多くの方に たいへんご迷惑をおかけしてしまい申し訳ありませんでした。 原因は主にプレミアム会員向けハードウェアの故障ですが、 そのほかに ・ハードウェア障害検知の初動が遅れた ・ユーザーへの障害報告の遅れ・情報量不足 の2点、合計3点の大きな問題があったと認識しています。 復旧に時間がかかったのはインフラ構造上の理由で、根的には 莫大なお金をかけることでしか解決できません。 プレミアム会員が堅調に伸びていけば1-2年単位で少しずつ改善していける見込みです。 インフラ費用については、 大会議などのイベントをやめると解決するというレベルではなく、 現状では動画配信設備の改善を生放送で増えている プレミアム会員の売上から捻出するという状態です。 但

    kinokomaru
    kinokomaru 2011/02/06
    金かけても可用性は。。
  • 1