サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
買ってよかったもの
www.pagerduty.co.jp
DevOpsの導入によって、開発エンジニアがサービスの信頼性と可用性に対する責任を負い、オンコール対応に携わるようになりました。オンコールは重要な職務ですが、精神的な負荷が大きいため不安を感じる方も多く、いわゆる「燃え尽き症候群」に陥る方も生じます。 そこで今回は、PagerDutyコミュニティのメンバーから寄せられた、オンコール対応の不安を取り除く方法や、オンコールローテーションに臨む際のアドバイスをご紹介します。ぜひ、今後の参考にしてください! インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧
本記事では、主に新しくインシデント対応・管理を担当することになった皆様に向けて「インシデント対応者になったら、まず把握すべきこと」をテーマにPagerDuty公式ブログの中から入門記事を厳選してご紹介します。新人のインシデント対応者の方はもちろん、基礎的な部分の学び直しなどにもお役立て頂けますと幸いです。今後、関連記事が公開次第順次更新していきます。 ブックマークおすすめです! 概念理解編1️⃣ システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜企業にとって甚大な損失とともに伝えられるシステム障害のニュースを耳にすると、自社のシステム障害対策に不安を覚える方もいるのではないでしょうか。現代のシステム障害対策では、予防策に加え、より迅速な障害対応が求められます。システム障害が発生すると大きな損失につながり、1分1秒でも早い復旧が望まれるためです。そこで、システム障害の対策と対
前回は、何故インシデントコマンダーに注目が集まっているのか、そしてどのような役割なのかを解説しました(インシデントコマンダーとは? 〜現代のIT運用には必須!その役割と理由〜)。今回はよりインシデントコマンダーの業務について踏み込んで解説を行っていきます。 おさらい: インシデントコマンダーとは 前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。 インシデントコマンダーの役割 意思決定 作業担当への指示 作業要員や関連部署の招集・体制構築 ステークホルダーとのコミュニケーション 状況の交通整理 インシデントの発生と収束の宣言 ポストモーテムの作成指示 インシデント発生時
オペレーション業務には、予期せぬ業務の発生がつきものです。「すぐには解決できないインシデントや問題」に直面することも珍しくありません。その際に、もし担当者自身ですぐに判断や対応ができない場合、どうすればよいでしょうか?例えば、「解決策を見つけるためにGoogleで検索する」「社内Wikiやドキュメントに目を通す」「共有スクリプトの場所を探す」「同僚に尋ねる」など、ありとあらゆる方法を試されるかもしれません。あるいは別の部署へエスカレーションする方もいらっしゃるかも。問題解決に向けた行動には実にさまざまな方法があります。初めて発生した問題であれば、試行錯誤することもあります。しかし、よく発生する問題で何度も同じ解決策を調べていることは、効率性の観点から見直すべきかもしれません。さらにいうと、重大なインシデント対応の最初の段階で、経験の浅い担当者が最も効率が良いとは言えない手段で、時間をかけて
近年、金融機関や通信会社などで多発しているシステム障害。システムが1分停止すると約100万円、24時間で約10億円の損失が起きるともいわれています。現代社会では、クラウド化やデジタルトランスフォーメーションの進展により、私たちの生活がITサービスやITシステムに依存しています。このような状況下でシステムが停止することは、日々の生活に大きな影響を与えることになります。救急車のIoT装置や病院の電子カルテシステムなど、障害によりシステムが停止することで、時には人の命にも関わる可能性があり、社会課題の1つとなっています。 システム障害の発生の大きな原因として、「原因究明や回復対応に時間がかかる」ために発生するようにも思えますが、本質的な課題は「システム運用監視体制」が整っていなかったことにあると考えられます。ますますデジタル化が進む中で、システム障害は必ず起きるものであり、ゼロにすることは不可能
ユーザーニーズの変化が激しい現代において、アジャイル開発を導入するなどして開発スピードを向上させることが重要です。しかし、スピーディーな開発をめざす一方で、システムの安定性の維持が難しいと悩んでいる方もいるのではないでしょうか。そこで注目されているのが、開発の高速化とシステムの安定性を両立するための方法論である「SRE(Site Reliability Engineering・サイト信頼性エンジニアリング)」です。この記事では、SREの基本を知りたい方に向け「概要」「主要な指標」「DevOpsとの違い」「SRE実践におけるポイント」といったポイントをわかりやすくご紹介します。 SREとは 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運用を支えるための方法論とし
変化の激しい市場に対応するための開発手法として、アジャイル開発を導入する企業が増えるとともに、「DevOps」への注目が高まっています。しかし一方で「DevOpsという言葉は聞いたことはあるけれど、実際にはよくわからない」という方もいらっしゃるのではないでしょうか。DevOpsは「開発担当者と運用担当者が密に連携することで、柔軟でスピーディーな開発を実現する」というソフトウェア開発手法の一つです。DevOpsは単なるトレンドではなく、現代のソフトウェア開発において非常に重要な考え方でもあります。本記事では、DevOpsを一から理解したいという方にもわかるように、DevOps誕生の歴史を簡単に紐解きながら、DevOpsの考え方をご紹介します。また、アジャイル開発との違いやDevOps導入のメリット、実践のポイントなどをDevOpsを実践する3社の事例を交えて解説します。 「DevOps」とは
DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対
「IT自動化プロジェクト」の予算を社内で確保するためにはアイデアだけでは不十分です。現在の経済状況において、プロジェクトの実行を正当化するためには「プロジェクトがどのような価値を提供し、企業のビジョンや目標をどのようにサポートするか」を示す必要があります。 本ガイドでは、PagerDuty「Process Automation」プロジェクトがもたらす「ビジネス価値を効果的に示すための具体的なヒントやアイデア」を解説します。ビジネスを自動化する価値は「何を自動化するか」によって大きく異なります。さらに、的確なROIの算定には人間によるワークフローでは実現できない多くの自動化の実行回数による効果を具体的に測定する必要があります。 本ガイドでは、現在の御社のビジネス状況から収集すべき「ベースとなる指標」から「自動化対象のワークフローの利点」まで、御社が進めるべき「自動化プロジェクトのROI・ビジ
「Fortune 100企業の65%」が利用する 世界のデファクトスタンダード オペレーショナル・レジリエンスに必要不可欠なインシデント管理プラットフォームPagerDuty(ペイジャーデューティ)はシステムのインシデント対応を一元化するプラットフォームです。システム障害対応に費やす時間を軽減し、貴重なエンジニアリソースをビジネス拡大に充てることができます。
このページを最初にブックマークしてみませんか?
『PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く