サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
www.pagerduty.co.jp
2024年7月19日(金)に発生した、世界規模のシステム障害(インシデント)においてPagerDutyが分析したところ、インシデント発生は通常と比較して最大150%増加しており、PagerDuty上での復旧作業には通常よりも200%多い人員が投入されたことがわかりました。 この数ヶ月間で重大インシデントは前年比で40%増加しており、さらに、PagerDutyが2024年6月に公表したグローバル調査によると、ITリーダーの90%がシステム障害に起因する混乱が企業に対する顧客の信頼を低下させたと回答しています。また、ITリーダーの69%が障害が発生した際に顧客からの信頼を保つための投資が不足しているとも回答しています。 日々の業務、日常生活がデジタル化されている今日において、このようなインシデントはもはや避けることが難しく、インシデント発生はある種の”New Normal”であると言えるでしょ
インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。 なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。 「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜 また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。 「インシデント管理」とは?〜システム障害を未然に防ごう〜 エンジニアがオンコール対応に不安を感
概念理解編1️⃣ システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜企業にとって甚大な損失とともに伝えられるシステム障害のニュースを耳にすると、自社のシステム障害対策に不安を覚える方もいるのではないでしょうか。現代のシステム障害対策では、予防策に加え、より迅速な障害対応が求められます。システム障害が発生すると大きな損失につながり、1分1秒でも早い復旧が望まれるためです。そこで、システム障害の対策と対応において重要性が増しているのが「インシデント管理」です。適切なインシデント管理は、サービスの正常な利用を妨げるあらゆる事象への素早い対応を実現し、迅速な復旧につながります。本記事では、システム障害のリスクや対応策、そしてシステム障害への対策を考える際に知っておきたい「インシデント管理」とは何かを解説します。 ✅記事はコチラ 2️⃣ 「DevOps」とは?〜超基本から実践のポイン
おさらい: インシデントコマンダーとは前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。 インシデントコマンダーの役割意思決定作業担当への指示作業要員や関連部署の招集・体制構築ステークホルダーとのコミュニケーション状況の交通整理インシデントの発生と収束の宣言ポストモーテムの作成指示インシデント発生時の対応の流れインシデントが発生した際、インシデントコマンダーは状況を素早く把握し、適切な対応を取ることが求められます。ここでは、インシデントコマンダーが進めるべき対応の流れを説明します。 1️⃣ 状況の把握(Size-Up)まず、インシデントの症状を特定し、影響範囲を確認しま
オペレーション業務には、予期せぬ業務の発生がつきものです。「すぐには解決できないインシデントや問題」に直面することも珍しくありません。その際に、もし担当者自身ですぐに判断や対応ができない場合、どうすればよいでしょうか?例えば、「解決策を見つけるためにGoogleで検索する」「社内Wikiやドキュメントに目を通す」「共有スクリプトの場所を探す」「同僚に尋ねる」など、ありとあらゆる方法を試されるかもしれません。あるいは別の部署へエスカレーションする方もいらっしゃるかも。問題解決に向けた行動には実にさまざまな方法があります。初めて発生した問題であれば、試行錯誤することもあります。しかし、よく発生する問題で何度も同じ解決策を調べていることは、効率性の観点から見直すべきかもしれません。さらにいうと、重大なインシデント対応の最初の段階で、経験の浅い担当者が最も効率が良いとは言えない手段で、時間をかけて
よくある「インシデント管理」の悩みシステム運用には、運用担当をはじめ、開発担当やその双方を担当するDevOpsエンジニアなど様々な役割の人々が関わっています。ここでは、インシデント管理やインシデント対応にあたって、主にシステムを運用する企業が抱える、よくある課題や悩みを3つ紹介します。 1. インシデントへの対応開始・解決の複雑化ITシステムを運用するために自社のサーバを利用するオンプレミスや、複数事業者のクラウドシステムを混在させて利用するマルチクラウドなど、利用するサービスそのものが多岐にわたり、年々複雑になる傾向が強まっています。 自社が運用するシステムが複雑になったことで予期せぬ課題が増え、様々な監視ツールから送られてくる大量のアラートに対応しなくてはいけません。監視ツールが異なると、各アラートの詳細や関連情報を調査するためのツールも異なり、インシデントを特定するまでに時間を要した
ユーザーニーズの変化が激しい現代において、アジャイル開発を導入するなどして開発スピードを向上させることが重要です。しかし、スピーディーな開発をめざす一方で、システムの安定性の維持が難しいと悩んでいる方もいるのではないでしょうか。そこで注目されているのが、開発の高速化とシステムの安定性を両立するための方法論である「SRE(Site Reliability Engineering・サイト信頼性エンジニアリング)」です。この記事では、SREの基本を知りたい方に向け「概要」「主要な指標」「DevOpsとの違い」「SRE実践におけるポイント」といったポイントをわかりやすくご紹介します。 SREとは 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運用を支えるための方法論とし
変化の激しい市場に対応するための開発手法として、アジャイル開発を導入する企業が増えるとともに、「DevOps」への注目が高まっています。しかし一方で「DevOpsという言葉は聞いたことはあるけれど、実際にはよくわからない」という方もいらっしゃるのではないでしょうか。DevOpsは「開発担当者と運用担当者が密に連携することで、柔軟でスピーディーな開発を実現する」というソフトウェア開発手法の一つです。DevOpsは単なるトレンドではなく、現代のソフトウェア開発において非常に重要な考え方でもあります。本記事では、DevOpsを一から理解したいという方にもわかるように、DevOps誕生の歴史を簡単に紐解きながら、DevOpsの考え方をご紹介します。また、アジャイル開発との違いやDevOps導入のメリット、実践のポイントなどをDevOpsを実践する3社の事例を交えて解説します。 「DevOps」とは
DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対
「IT自動化プロジェクト」の予算を社内で確保するためにはアイデアだけでは不十分です。現在の経済状況において、プロジェクトの実行を正当化するためには「プロジェクトがどのような価値を提供し、企業のビジョンや目標をどのようにサポートするか」を示す必要があります。 本ガイドでは、PagerDuty「Process Automation」プロジェクトがもたらす「ビジネス価値を効果的に示すための具体的なヒントやアイデア」を解説します。ビジネスを自動化する価値は「何を自動化するか」によって大きく異なります。さらに、的確なROIの算定には人間によるワークフローでは実現できない多くの自動化の実行回数による効果を具体的に測定する必要があります。 本ガイドでは、現在の御社のビジネス状況から収集すべき「ベースとなる指標」から「自動化対象のワークフローの利点」まで、御社が進めるべき「自動化プロジェクトのROI・ビジ
Incident ManagementAIや自動化を活用し、インシデント対応を効率化することで、運用・開発チームの担当者は少ない労力で速やかに障害を解決できるようになります。 Customer Service Opsカスタマーサービスチームのオペレーションを最適化し、顧客満足度の向上と業務効率化を実現します。社内のインシデント対応状況をリアルタイムで把握し、顧客に伝えることで顧客満足度を向上させます。
このページを最初にブックマークしてみませんか?
『PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く