記事へのコメント25

    • 注目コメント
    • 新着コメント
    miyatakesan
    miyatakesan この規模でこの復旧対応は早いわぁ

    2017/04/20 リンク

    その他
    hidehara
    hidehara なるほどなぁ。成長し続けるシステムほど、自動化した作業の影響範囲を適切に維持し続けるのは難しいと感じた。適切なマージンを自動化の仕組み内部にも保持し続ける必要があるのだろうなぁ。

    2017/03/10 リンク

    その他
    kana0355
    kana0355 “ツールがサーバを削除する速度を遅くすると同時に、システムの稼働維持に最低限必要な台数を超えたサーバを削除しないようにセーフティガードを追加した。ほかのツールにも同様のセーフティガードを導入した”

    2017/03/06 リンク

    その他
    nekoruri
    nekoruri “今年後半に予定されていたさらなるセル分割作業の優先順位を高め、すぐさま取りかかるようにした” あーあーあー

    2017/03/06 リンク

    その他
    nilab
    nilab Amazon S3ダウンの原因、コマンドの入力ミスで多数のサーバを削除。サブシステム再起動に時間がかかり障害が長引く。AWSの報告を読み解く - Publickey

    2017/03/06 リンク

    その他
    richard_raw
    richard_raw 分かりやすい解説。「再起動とセーフティチェックのための整合性の検証にかかる時間が予想よりも長くかかってしまいました。」まあ頻繁にチェックするような項目じゃないですよね。

    2017/03/06 リンク

    その他
    metamix
    metamix ちょっと前にシステム復旧作業を公開配信してたシステム会社も、原因は同じくadmin権限者のコマンド打ち間違えだったな… あの会社もAmazonもミスを隠さずユーザーに共有していく姿勢が素晴らしい

    2017/03/06 リンク

    その他
    uzuki-first
    uzuki-first 内容と改善策が具体的

    2017/03/06 リンク

    その他
    onotomo_net
    onotomo_net S3ですら、障害が起きうるんですよと。

    2017/03/06 リンク

    その他
    raimon49
    raimon49 敢えて「ツールがサーバを削除する速度を遅くする」っていうのも何だか凄い話だな…。

    2017/03/06 リンク

    その他
    peperon_brain
    peperon_brain 改善策のところが具体的だし「もうやった」なのがすごい。「管理を徹底し再発防止に努める」みたいなふわっとしたこと言わないもんな。

    2017/03/06 リンク

    その他
    akikan2
    akikan2 後のRM-R事件である

    2017/03/06 リンク

    その他
    sucelie
    sucelie でも3時間で復帰できるのか。すげーな。

    2017/03/06 リンク

    その他
    snobsnog
    snobsnog AWSでもあるんだよね……ヒューマンエラーはさ

    2017/03/06 リンク

    その他
    lwix
    lwix 単純なミスほど撲滅するのが難しい

    2017/03/06 リンク

    その他
    kei_0000
    kei_0000 あれ人的ミスだったのか。AWS位になれば、クリティカルな作業はせめて半自動化位にはなってると思ったけど。あのほぼ100%のデータ保全保証は大丈夫かな。

    2017/03/06 リンク

    その他
    ymkjp
    ymkjp 彼がS3を止めた最初で最後の人類になることはまだ知る由もなかったー

    2017/03/06 リンク

    その他
    katzchang
    katzchang 「時間がかかった」というところ以外は想定通り復帰してるってことなのかな

    2017/03/06 リンク

    その他
    kuroaka1871
    kuroaka1871 "コマンドのミス"

    2017/03/06 リンク

    その他
    luccafort
    luccafort ヒューマンエラーはいつまでたってもなくならないし、完全に防ぐことが難しいのだなあ。

    2017/03/06 リンク

    その他
    ip6ser
    ip6ser コマンドのミスって絶対に起きるからね。こういうことが起きてよりクラウドは強化されるから、当たらなかった人はラッキーだ

    2017/03/06 リンク

    その他
    jt_noSke
    jt_noSke そうなんだ、うーん

    2017/03/06 リンク

    その他
    Mint0A0yama
    Mint0A0yama また一つ障害要因と対策の理解が深まった。解説に感謝🙏

    2017/03/06 リンク

    その他
    synbizmix
    synbizmix 詳しい解説。/Amazon S3ダウンの原因、コマンドの入力ミスで多数のサーバを削除。サブシステム再起動に時間がかかり障害が長引く。AWSの報告を読み解く - Publickey

    2017/03/06 リンク

    その他
    sora_h
    sora_h まともな日本語記事だ。

    2017/03/05 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    Amazon S3ダウンの原因、コマンドの入力ミスで多数のサーバを削除。サブシステム再起動に時間がかかり障害が長引く。AWSの報告を読み解く

    AWSの米国東部リージョン(US-EAST-1、バージニア北部)において2月28日に発生したAmazon S3の障害の原...

    ブックマークしたユーザー

    • alcus2019/02/19 alcus
    • stereocat2017/11/06 stereocat
    • miyatakesan2017/04/20 miyatakesan
    • chromerolled2017/04/10 chromerolled
    • spacersargand2017/03/19 spacersargand
    • lizy2017/03/14 lizy
    • parulachat2017/03/14 parulachat
    • fujimocker2017/03/12 fujimocker
    • cardioidthaw2017/03/12 cardioidthaw
    • mjtai2017/03/11 mjtai
    • hidehara2017/03/10 hidehara
    • jitsu1022017/03/09 jitsu102
    • smokeymonkey2017/03/08 smokeymonkey
    • kura-22017/03/08 kura-2
    • littlefield2017/03/07 littlefield
    • TERMINATOR_T8002017/03/07 TERMINATOR_T800
    • g08m112017/03/07 g08m11
    • madarax112017/03/07 madarax11
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事