タグ

2019年8月23日のブックマーク (3件)

  • AWS障害、大部分の復旧完了 原因は「サーバの過熱」

    8月23日午後1時ごろに発生した、米Amazon Web Servicesのクラウドサービス「AWS」の東京リージョンでの障害について、同社は午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。 同社によると問題が起きたのは、「Amazon Elastic Compute Cloud」(EC2)の東京リージョンを構成する4つのデータセンター(アベイラビリティーゾーン、AZ)の内の1カ所。AZ内の制御システムに問題が発生し、複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化したとしている。 冷却システムは午後3時21分に復旧。午後6時30分までに、ほぼ全てのストレージ(EBSボリューム)とインスタンスが復旧したという。 同社は、障害

    AWS障害、大部分の復旧完了 原因は「サーバの過熱」
    t-cyrill
    t-cyrill 2019/08/23
    クーラーが単一障害点🔥
  • 8月23日のAWSの大規模障害でMultiAZでもALB(ELB)が特定条件で500エラーを返すことがあったという話 - Make組ブログ

    このブログ記事で 「MultiAZ」にしていたら何事も全て大丈夫という認識を変えられると嬉しいです (当該の時点で障害起こした人はちゃんとMultiAZにしてなかったんでしょ?という人の認識も変えられると嬉しいです)。 MultiAZにしておくことは基 です。 その上でも、 安心しきらずに監視は必要 という話をしています。 MultiAZ構成にしておきましょう そのうえで監視、検知、トレーサビリティを大切にしましょう MultiAZ要らないという見当外れの解釈はしないでください (一部、間違えた解釈をしてるコメントも見受けられましたが、大いに違います)。 前提 2019-08-23、AWSで大規模な障害が起こりました。 障害の一般的な内容は以下のとおりです。 まとめのブログ https://piyolog.hatenadiary.jp/entry/2019/08/23/174801 AW

    8月23日のAWSの大規模障害でMultiAZでもALB(ELB)が特定条件で500エラーを返すことがあったという話 - Make組ブログ
    t-cyrill
    t-cyrill 2019/08/23
    これは嫌な動作だ。考えてみるとありえそうで、ELBもEC2と同じような仕組みであるなら落ちてるゾーンのALBはハズレで機能しなさそう
  • Engadget | Technology News & Reviews

    Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

    Engadget | Technology News & Reviews
    t-cyrill
    t-cyrill 2019/08/23
    きっとみんな知見が溜まったに違いない。3azにしてないと片落ちした時に50%使えなくなるしまあまあ辛そう。