サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ブラックフライデー
www.pagerduty.co.jp
何が起きたのか東部時間午前3時直前、PagerDutyは通知の失敗率の上昇を検知しました。当初は内部の認証関連の問題と推測されましたが、すぐにその可能性は排除されました。状況が展開するにつれ、これが上流プロバイダーで発生した大規模なイベントであることが明らかになりました。私たちの内部「インターネット気象」ダッシュボードは、複数のアカウントで通知トラフィックが通常と異なる急増を示しており、広範囲に影響が及んでいることを示唆していました。これは、ステータスページに表示される前に重大なインターネット障害が発生していることを特定する、信頼性の高いシグナルとなっていますが、根本原因までは教えてくれません。 インシデントが進行するにつれて、イベント、インシデント、通知の発生率が増加しているのを観測しました。通常、北米の大部分では夜間は低トラフィック期間となるため、イベントとインシデントのトラフィックは
Incident ManagementAIや自動化を活用し、インシデント対応を効率化することで、運用・開発チームの担当者は少ない労力で速やかに障害を解決できるようになります。 Customer Service Opsカスタマーサービスチームのオペレーションを最適化し、顧客満足度の向上と業務効率化を実現します。社内のインシデント対応状況をリアルタイムで把握し、顧客に伝えることで顧客満足度を向上させます。
インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。 なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。 「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜 また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。 「インシデント管理」とは?〜システム障害を未然に防ごう〜 エンジニアがオンコール対応に不安を感
概念理解編1️⃣ システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜企業にとって甚大な損失とともに伝えられるシステム障害のニュースを耳にすると、自社のシステム障害対策に不安を覚える方もいるのではないでしょうか。現代のシステム障害対策では、予防策に加え、より迅速な障害対応が求められます。システム障害が発生すると大きな損失につながり、1分1秒でも早い復旧が望まれるためです。そこで、システム障害の対策と対応において重要性が増しているのが「インシデント管理」です。適切なインシデント管理は、サービスの正常な利用を妨げるあらゆる事象への素早い対応を実現し、迅速な復旧につながります。本記事では、システム障害のリスクや対応策、そしてシステム障害への対策を考える際に知っておきたい「インシデント管理」とは何かを解説します。 ✅記事はコチラ 2️⃣ 「DevOps」とは?〜超基本から実践のポイン
おさらい: インシデントコマンダーとは前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。 インシデントコマンダーの役割意思決定作業担当への指示作業要員や関連部署の招集・体制構築ステークホルダーとのコミュニケーション状況の交通整理インシデントの発生と収束の宣言ポストモーテムの作成指示インシデント発生時の対応の流れインシデントが発生した際、インシデントコマンダーは状況を素早く把握し、適切な対応を取ることが求められます。ここでは、インシデントコマンダーが進めるべき対応の流れを説明します。 1️⃣ 状況の把握(Size-Up)まず、インシデントの症状を特定し、影響範囲を確認しま
複雑さを増すシステム環境における「ランブックの重要性」まず、ランブックとはどのようなものなのか、ランブックの必要性と併せて解説します。 ランブック(Runbook)とはランブックとは、「プロビジョニング」「ソフトウェアの更新・展開」「構成変更」「ポートの解放」といった、頻繁に発生するIT業務の手順を詳細に記した説明書のことです。ランブックの形式は、おもに次の3つに分けられます。 マニュアル形式:手順を説明した担当者向けの説明書半自動形式:一部のワークフローが自動化された担当者向けの説明書完全自動形式:すべてのワークフローが自動化された、担当者を必要としないものの説明書ランブックは料理のレシピのように、特定の業務を迅速かつ効率的に進めるための経験に基づいた詳細な手順が書かれています。ランブックがあれば、経験豊富なメンバーの知識を新しいメンバーに共有でき、経験の浅いメンバーでも頻繁に発生する問
よくある「インシデント管理」の悩みシステム運用には、運用担当をはじめ、開発担当やその双方を担当するDevOpsエンジニアなど様々な役割の人々が関わっています。ここでは、インシデント管理やインシデント対応にあたって、主にシステムを運用する企業が抱える、よくある課題や悩みを3つ紹介します。 1. インシデントへの対応開始・解決の複雑化ITシステムを運用するために自社のサーバを利用するオンプレミスや、複数事業者のクラウドシステムを混在させて利用するマルチクラウドなど、利用するサービスそのものが多岐にわたり、年々複雑になる傾向が強まっています。 自社が運用するシステムが複雑になったことで予期せぬ課題が増え、様々な監視ツールから送られてくる大量のアラートに対応しなくてはいけません。監視ツールが異なると、各アラートの詳細や関連情報を調査するためのツールも異なり、インシデントを特定するまでに時間を要した
SREとはなにか?「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」といいます。2004年に、Google社がWebサイトの安定的な運用を支えるための方法論として、提唱しました。 SREの大きな特徴は、「信頼性」をシステムの重要な機能の一つとしてとらえている点です。システムの信頼性を確保し、より良いサービス提供につなげるためのツールやアプローチ方法を常に模索します。 例えば、煩雑な手作業や繰り返し作業の削減、ソフトウェアを用いたITインフラのシステム自動化などに注力します。ユーザーがシステムを安心して使い続けられること、現場の負担を抑えながら信頼性の高いシステムを提供できることは、SREがもたらす代表的なベネフィットに挙げられます。 SREはなぜ求められるのか?必要とされる背景SREが提唱される以前
「DevOps」とは?~概念が生まれた歴史背景~「DevOps」は、開発(Development)と運用(Operations)という言葉の組み合わせによる造語で、「デブオプス」と読みます。 DevOpsという概念を端的に説明すると、システムやソフトウェアの開発・運用の両担当者が密に連携し柔軟でスピーディーな開発と運用を実現するという考え方やその方法論になります。 現代の市場におけるニーズの変化の激しさ、そしてお客様・ユーザーのデジタルサービスに対する期待度の高まりを背景に、それに即したスピードでの開発が求められます。例えば、企画からリリースまでに数年かかってしまうと、その間にユーザーのニーズは変化し市場に受け入れてもらえないリスクが上がります。 一方で、スピード重視で開発した結果、仕様の不備や問題点が多いようであれば、それもまたユーザーに受け入れてもらえないということが発生します。 つま
そもそも「オンコール」とは「オンコール(On-call)」とは、システム障害をもたらしうる「人による緊急対応が必要なインシデント」に即座に対応するために、インシデント対応者と対応時間をあらかじめ指定し管理する仕組みです。まず、インシデント対応とオンコールの基本についてご紹介します。 1. インシデント対応とは現代の私たちの生活は、ITサービスやシステムに大きく依存しています。例えば、医療システムの停止は人命にかかわる問題であり、ITサービスやシステムの安定した稼働や早急な障害対応は社会課題の一つとなっています。そんな「システム障害の予防と対応」において重要なのが、インシデント対応です。PagerDutyでは、インシデントを「システム障害に際して何らかの対応が必要な問題」と定義しています。早期にインシデント対応はシステム障害を未然に防ぐことに繋がります。また、適切なインシデント管理はシステム
このページを最初にブックマークしてみませんか?
『PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く