タグ

システム障害に関するpugleeのブックマーク (3)

  • Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)

    2019年8月28日(日時間)更新: 最初の事象概要で言及した通り、今回のイベントは、東京リージョンの1つのアベイラビリティゾーン(AZ)の一部に影響を与えました。この影響は当該 AZ の Amazon EC2 および Amazon EBS のリソースに対するものですが、基盤としている EC2 インスタンスが影響を受けた場合には、当該 AZ の他のサービス(RDS、 Redshift、 ElastiCache および Workspaces 等)にも影響がありました。お客様と今回のイベントの調査をさらに進めたところ、 個別のケースのいくつかで、複数のアベイラビリティゾーンで稼働していたお客様のアプリケーションにも、予期せぬ影響(例えば、 Application Load Balancer を AWS Web Application Firewall やスティッキーセッションと組み合わせてご

    Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)
  • Microsoftの「Windows Azure」、閏年関連バグでダウン

    Microsoftのクラウドサービス「Windows Azure」で、太平洋時間の2月28日午後5時45分くらいから複数の地域(東アジア、西アジア、北米、北ヨーロッパのそれぞれ一部)でサービス障害が発生し、稿執筆現在も完全には復旧していない(日時間の1日17時40分現在、ほぼ復旧した。公式発表はまだ更新されていない)。 Microsoftは公式ブログで謝罪し、現在、復旧作業と原因究明に努めていると発表した。原因は閏年の処理に関連するソフトウェアのバグという。 どの地域でまだ問題が残っているかは、サービスダッシュボードで確認できる。日が含まれる東アジア地域のサービスは、データ同期機能以外はほぼすべて復旧している。 同社によると、太平洋時間の29日午前2時57分にはほとんどの地域で復旧したという。一部の地域では約9時間にわたってサービスが使えなかったということだ。この障害は、顧客のスト

    Microsoftの「Windows Azure」、閏年関連バグでダウン
  • ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認

    ヤフー子会社のファーストサーバは2012年7月31日、6月20日に発生した大規模障害(関連記事)についての調査報告書(最終報告書)を公表した(写真)。報告書は、ファーストサーバに利害関係のない3人の委員による「第三者調査委員会」(関連記事)が作成した。同社Webサイトに「要約版」を掲載している。 報告書は調査対象とする事故を、6月20日に発生した「第1事故」と、第1事故で消失したデータが想定外の場所に復元された「第2事故」(関連記事)の2つとしている。 1人だけ自作プログラムでメンテナンス 報告書は、第1事故の事実関係について次のように言及している。ファーストサーバではシステム変更を実行する際、社内マニュアルに沿って実行することになっており、第1事故の原因となったシステム変更の担当者(A氏)以外は社内マニュアルに従っていた。 ところが、A氏だけはマニュアルに従わず、自作の「更新プログラム」

    ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認
  • 1