先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 本題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g
この記事は NTTコミュニケーションズ Advent Calendar 2019の14日目の記事です。 昨日は @yuki_uchida さん の記事、BERTを理解しながら自分のツイートを可視化してみるハンズオン でした。 はじめに 当初は Kubeinvaders の解説記事を書こうかなと思っていたのですが、先日うちの子供が通う保育園から、うちの子供に対するインシデントの報告を受け、今後の対策として保育園にChaos Engineeringを提案するという我ながら変なことをしてきたのでそのことを書きます。(※完全に会社に関係のない私事です) 保育園からインシデントレポートを受けたので、今後の対策案としてChaos Engineeringを提案してきた — まひと / Mahito (@Mahito) November 29, 2019 保育園で起きたインシデントについて 妻からの電話
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く