タグ

障害に関するkidotakaのブックマーク (3)

  • 「Zebrium」――エンジニア永遠の課題「障害対応」にAIで挑む【シリコンバレー直送便】

    連載で取り上げる企業と着目点 連載で、主に対象とするスタートアップは、ある程度米国でのビジネスの地歩が固まり、日を含む海外展開を視野に入れ始めたステージを想定している。単なる企業やソリューションの紹介にとどまらず、それらが注目されるに至った背景――米国でのビジネストレンドの変遷や技術的進歩――もあわせてお伝えすることで、読者の皆さんのビジネスにおけるヒントになれば幸いだ。 Zebrium ―― エンジニア永遠の課題「障害対応」に挑む 「シリコンバレー直送便」第3回で取り上げる企業は、シリコンバレー(Santa Clara)に社をかまえるソフトウェア障害解析の自動化ソリューションを開発するスタートアップのZebriumである。稿の趣旨である「日進出を計画するステージ」よりはもう少しアーリーステージであるが、エンジニアやプログラマの読者にとっても興味深いサービスを提供するスタートアッ

    「Zebrium」――エンジニア永遠の課題「障害対応」にAIで挑む【シリコンバレー直送便】
  • AWS大障害の真相、不具合が連鎖して冗長構成の「安全神話」が崩壊

    2019年8月23日午後、Amazon Web Services(AWS)が6時間ほど停止した。日のクラウドサービスで5割近いシェアを持つだけに影響は大きかった。原因は東京リージョンの一部エリアで発生した空調設備の故障だ。制御システムにフェイルオーバーしないバグがあり、機器制御装置も異常動作した。重要システムは冗長化するといった対策が利用企業に改めて求められている。 「あれ?自転車が返せないぞ」。2019年8月23日午後1時すぎ、ドコモ・バイクシェアが運営するシェア自転車を東京都内で返却しようとした50代の会社員は戸惑った。 通常なら自転車に鍵をかけてパネルのエンターキーを押せば「返却」と表示されて完了するが、何度押しても「返却場所ではない」と表示されるばかり。サポートセンターに電話してもつながらない。次の用事もあるため、鍵をかけて放置するしかなかった。 サービスに不具合が生じたのは、同

    AWS大障害の真相、不具合が連鎖して冗長構成の「安全神話」が崩壊
  • AWS でいままで起きた大規模障害を振り返る - Qiita

    目的 2017/3/1 に us-east-1 の S3 大規模障害がありました。過去にもいくつか発生しているのと、いつ使っているリージョンで同じ事態が起きてもおかしくないと思い、これを機に過去どのような障害があったのか遡って調べました。 所感 毎年どこかのリージョンで大規模な障害が起きている ap-northeast-1 で起きていないのはたまたま、運がいいだけ AWS は復旧時間の改善・可用性向上に全力を尽くしているものの、未知の障害はいつかどこかで起きるもの ステータスダッシュボードは時に嘘をつく クラウドシェアトップである AWS はインターネット全体の SPOF になりつつある Chaos Monkey の思想は必須 報告書読むの面白い AWS の中身がすこし透けて見えてきます 前回データセンターについて調べたことが役に立った AWS のデータセンターに侵入する(妄想で) - Q

    AWS でいままで起きた大規模障害を振り返る - Qiita
  • 1