イベント名: オブザーバビリティ再入門 - 大切さと高め方を知ろう! イベントURL: https://mackerelio.connpass.com/event/316449/ 概要: 可観測性の概念を理解し、OpenTelemetryなどの実装に必要な道具があっても、自分たちのプロダクトやチーム…
障害対応の流れは以下の通りです。 1.影響範囲を確認する障害を検知したらまず、障害の影響範囲を見極めます。 一般的に、障害は複数要素の複合的要因で発生します。障害が起きている箇所(プロセスやサービスなど)を特定し再起動を行うとともに、関連していると思われる障害が発生していないかを確認します。 (※障害切り分けのための情報収集項目については、「システム監視項目をどう定義するのか?」をご参照ください。) URL応答障害や、DBへの接続障害が発生している場合は、サービス提供に影響している可能性があります。ブラウザで対象 URL にアクセスする、サーバーへリモートログインするなどして、状況の確認とサービスへの影響範囲を確認します。 2.担当者へ連絡するサービス提供に影響が出る障害の場合は、速やかに障害連絡先と情報共有します。復旧に時間がかかりそうな時、また、復旧確認が取れた時にも、随時、連絡と情報
・2年で月間10億PVを支えるまで成長した ZenClerkの運用上の工夫を紹介 ・AWSのTipsとあるある話の共有
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く