並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 31 件 / 31件

新着順 人気順

PagerDutyの検索結果1 - 31 件 / 31件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

PagerDutyに関するエントリは31件あります。 システム運用エンジニア などが関連タグです。 人気エントリには 『「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty』などがあります。
  • 「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty

    変化の激しい市場に対応するための開発手法として、アジャイル開発を導入する企業が増えるとともに、「DevOps」への注目が高まっています。しかし一方で「DevOpsという言葉は聞いたことはあるけれど、実際にはよくわからない」という方もいらっしゃるのではないでしょうか。DevOpsは「開発担当者と運用担当者が密に連携することで、柔軟でスピーディーな開発を実現する」というソフトウェア開発手法の一つです。DevOpsは単なるトレンドではなく、現代のソフトウェア開発において非常に重要な考え方でもあります。本記事では、DevOpsを一から理解したいという方にもわかるように、DevOps誕生の歴史を簡単に紐解きながら、DevOpsの考え方をご紹介します。また、アジャイル開発との違いやDevOps導入のメリット、実践のポイントなどをDevOpsを実践する3社の事例を交えて解説します。 「DevOps」とは

      「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty
    • AWS Systems Manager と PagerDuty を使用した高度な運用インシデント対応機能を発表

      AWS Systems Manager の機能である Incident Manager が、人気の運用インシデント対応ツールである PagerDuty と統合されたことを発表します。これにより、AWS の運用インシデント対応機能が強化されます。運用チームはアプリケーションの可用性とパフォーマンスに関する重大な問題の発生時に、迅速に関与、対応、解決できるようになります。 Incident Manager を使用すると、重大な問題が検出された際に、適切な担当者および情報を特定できます。それにより、事前設定した対応計画を開始し、SMS、電話、チャットのチャネルを使用して担当者と連携できます。また、AWS Systems Manager Automation のランブックを実行できます。Amazon CloudWatch アラームまたは Amazon EventBridge イベントによって、問題

        AWS Systems Manager と PagerDuty を使用した高度な運用インシデント対応機能を発表
      • エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon

        PagerDuty on Tour TOKYO 2024での発表資料です。 https://www.pagerduty.co.jp/pagerdutyontourtokyo/

          エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon
        • 燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty

          DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対

            燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty
          • PagerDuty Incident Response Documentation

            このドキュメントは、PagerDutyにおけるインシデント対応プロセスが載っています。 重大インシデントや、新しくオンコールを始める社員の準備に利用している、PagerDutyの内部ドキュメントの一部を切り出したものです。 このドキュメントではインシデントに備えることだけではなく、インシデント発生中、また収束後の対応についても説明します。 オンコールを担当する人や、インシデント対応プロセスに関与する人(またきちんとしたインシデント対応プロセスを制定したい人)が読むことを想定しています。 このドキュメントが何なのか、なぜ存在するかは、「このドキュメントについて」を参照してください。 どこから手を付けるべきか? もしあなたがインシデント対応が初めてで、組織的な手順がない場合は、まず「はじめに」で何ができるかを確認してください。 そして詳細な手順を、Training Courseから確認すること

              PagerDuty Incident Response Documentation
            • PagerDutyでアラート管理を改善した話 - Tech Inside Drecom

              はじめに こんにちは。インフラストラクチャー部のひらしーです。 今回はPagerDutyを導入し、システムに異常が発生した際のアラート管理を改善した話を紹介します。 アラート管理改善前 解決すべき人へのエスカレーションが必要な問題発生時、以前は以下のような問題がありました。 通知手段がメールのみで、インフラチームのメンバーは全サービスのアラートを受け取って自分でフィルタリング・転送をする必要があり、問題のエスカレーション漏れや監視設定自体の見直しがされずに監視精度のばらつきが発生していた過去のアラート情報が集約できておらず、問題の傾向把握や類似の障害の検索が困難だった PagerDutyについて 上記の問題を解決するため、メール運用のまま手法のみ改善する運用や内製ツールの開発を検討しましたがトライアルでチーム内での評価が高かったためSaaSのアラート管理ツールであるPagerDutyを採用

                PagerDutyでアラート管理を改善した話 - Tech Inside Drecom
              • 大企業では生成AIの採用が進んでいないという結果に、その理由とは? PagerDutyが調査

                調査結果によれば、企業内でAIの可能性についての議論はますます活発化している一方で、調査対象者の全員がAIに潜むセキュリティリスクについて懸念していると答えており、51%が生成AIの採用を適切なガイドラインが整うまで見送るべきだと回答した。 調査対象者は、先進技術の潜在的なビジネス上のメリットと未来についてもっとも関心を持つ立場であり、46%が早急に生成AIの採用を進めなければ、競合に遅れを取る恐れがあると考えている。一方で、4分の1の調査対象者が生成AIを信頼していないと回答した。 その他のおもな調査結果は以下の通り。 50%が企業の評判に生成AIがもたらすリスクについて懸念していると回答 51%が著作権や法的リスクが非常に不安であると回答 51%が適切なガイドラインが整備されるまで生成AIの導入は検討していないと回答 正式なガイドラインを策定済みの企業は29%に留まり、66%はこれらの

                  大企業では生成AIの採用が進んでいないという結果に、その理由とは? PagerDutyが調査
                • 約10年間MIXIのインフラを 支えてきたPagerDutyの活用事例 / PagerDuty on Tour 2024

                  2024年8月6日(火) PagerDuty on Tour Engineer Session Customer Showcase 約10年間MIXIのインフラを 支えてきたPagerDutyの活用事例

                    約10年間MIXIのインフラを 支えてきたPagerDutyの活用事例 / PagerDuty on Tour 2024
                  • PagerDuty Incident Responseの邦訳版を公開しました | Folioscope

                    こんにちは、ご無沙汰してます。 早速ですが、皆さんのチームにはインシデント発生時のプロセスが決められていますか? インシデント管理サービスを提供しているPagerDutyは、「PagerDuty Incident Response」というドキュメントを公開しています。 このドキュメントがすごく良いものだったので、このたび邦訳した物を公開することにしました。 https://ueokande.github.io/incident-response-docs-ja/ このドキュメントはなに? このドキュメントは、PagerDuty におけるインシデントの対応プロセスが紹介されています。 インシデント対応の準備や、新しくオンコールを始める社員のトレーニングに利用しているドキュメントです。 このドキュメントはもともと PagerDuty の社内ドキュメントとして利用していたものを、公開可能なものに

                      PagerDuty Incident Responseの邦訳版を公開しました | Folioscope
                    • PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社

                      Incident ManagementAIや自動化を活用し、インシデント対応を効率化することで、運用・開発チームの担当者は少ない労力で速やかに障害を解決できるようになります。 Customer Service Opsカスタマーサービスチームのオペレーションを最適化し、顧客満足度の向上と業務効率化を実現します。社内のインシデント対応状況をリアルタイムで把握し、顧客に伝えることで顧客満足度を向上させます。

                        PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社
                      • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

                        インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。 なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。 「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜 また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。 「インシデント管理」とは?〜システム障害を未然に防ごう〜 エンジニアがオンコール対応に不安を感

                          オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
                        • インシデントコマンダー - PagerDuty Incident Response Documentation

                          Credit: NASA インシデントコマンダーになりたいですか。 あなたは正しい場所にたどり着けました! インシデントコマンダーはシニアメンバーである必要はなく、必要な知識があれば誰でもなることができます(もちろんインターンも含みます)。 目的# インシデントコマンダーの目的を1文でまとめるなら インシデントを解決に導く インシデントコマンダーは重大インシデント発生中に意思決定をします。 インシデントを解決するために、タスクを委譲し内容領域専門家からの意見を聞きます。 日々の地位に関係なく、重大インシデントでは最も位の高い人です。 コマンダーとしての意思決定は確定的なものです。 インシデントコマンダーとしての仕事は、他の背景情報や詳細情報を集約して明確な調整をするために、通話を聞きインシデントのSlackルームを見ます。 インシデントコマンダーは、任意のアクションの実行や修正をしたり、グ

                            インシデントコマンダー - PagerDuty Incident Response Documentation
                          • 業務プロセス自動化による 「ビジネス価値・ROI測定方法」解説ガイド│資料一覧│リアルタイムインシデント対応ソリューション│PagerDuty

                            「IT自動化プロジェクト」の予算を社内で確保するためにはアイデアだけでは不十分です。現在の経済状況において、プロジェクトの実行を正当化するためには「プロジェクトがどのような価値を提供し、企業のビジョンや目標をどのようにサポートするか」を示す必要があります。 本ガイドでは、PagerDuty「Process Automation」プロジェクトがもたらす「ビジネス価値を効果的に示すための具体的なヒントやアイデア」を解説します。ビジネスを自動化する価値は「何を自動化するか」によって大きく異なります。さらに、的確なROIの算定には人間によるワークフローでは実現できない多くの自動化の実行回数による効果を具体的に測定する必要があります。 本ガイドでは、現在の御社のビジネス状況から収集すべき「ベースとなる指標」から「自動化対象のワークフローの利点」まで、御社が進めるべき「自動化プロジェクトのROI・ビジ

                              業務プロセス自動化による 「ビジネス価値・ROI測定方法」解説ガイド│資料一覧│リアルタイムインシデント対応ソリューション│PagerDuty
                            • Anti-Patterns - PagerDuty Incident Response Documentation

                              Home Getting Started On-Call Being On-Call Who's On-Call? Alerting Principles Before an Incident What is an Incident? Severity Levels Different Roles Call Etiquette Complex Incidents During an Incident During an Incident External Communication Guidelines Security Incident After an Incident After an Incident Postmortem Process Postmortem Template Effective Postmortems Crisis Response Crisis Respons

                                Anti-Patterns - PagerDuty Incident Response Documentation
                              • インシデント管理とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty

                                よくある「インシデント管理」の悩みシステム運用には、運用担当をはじめ、開発担当やその双方を担当するDevOpsエンジニアなど様々な役割の人々が関わっています。ここでは、インシデント管理やインシデント対応にあたって、主にシステムを運用する企業が抱える、よくある課題や悩みを3つ紹介します。 1. インシデントへの対応開始・解決の複雑化ITシステムを運用するために自社のサーバを利用するオンプレミスや、複数事業者のクラウドシステムを混在させて利用するマルチクラウドなど、利用するサービスそのものが多岐にわたり、年々複雑になる傾向が強まっています。 自社が運用するシステムが複雑になったことで予期せぬ課題が増え、様々な監視ツールから送られてくる大量のアラートに対応しなくてはいけません。監視ツールが異なると、各アラートの詳細や関連情報を調査するためのツールも異なり、インシデントを特定するまでに時間を要した

                                  インシデント管理とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty
                                • 全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers

                                  こんにちは!NewsPicksエンジニアの森川です。今回はNewsPicksのオンコール(=障害対応)体制の変遷と試行錯誤をご紹介したいと思います。 オンコール1.0 ~ 全員野球時代 ~ オンコール2.0 ~ 当番制時代 ~ 1. 専門外のアラートに対応できない 2. 対応するエラーの数が多すぎる 3. 勤務時間の自由度が減る 4. slackに気づけない オンコール3.0 ~ PagerDuty時代 ~ 1. アラートを緊急度で仕分け 2. 当番ローテーションの変更 3. PagerDutyの導入 おわりに オンコール1.0 ~ 全員野球時代 ~ NewsPicksにはエンジニア全員が入るslackチャンネルがあり、ここで周知事項の共有や雑談、問い合わせがされています。昔はこれに加え不具合の報告や監視システムからのアラート通知もこのチャンネルに流れるようになっており、アラート通知は気づ

                                    全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers
                                  • PagerDutyにProduct Evangelistとして入社しました - Cloud Penguins

                                    インシデント対応プラットフォームとして知られるPagerDutyに、Product Evangelistとして入社した。 ▲マスコットのペイジーくん Evangelistを仕事にするよ コミュニティ活動で知り合った人からは、「お、ついに本職になるんだね」と、あまり違和感なく受け入れられるんじゃないかなと思っている。むしろ、「今まではDevRelじゃなかったのか」とまで思われるかもしれない。そう、これまではPre-sales Engineerだったし、それより前はProfessional Serviceだったので本業におけるコミュニティ活動はあくまでもボランティアだったのだ。 逆に、自分と付き合いが長い人からすると「え、DevRel? おまえDevRelにはならないって言ってなかったっけ?」と驚かれるんじゃないかと思う。そう、自分はDevRelにはならねぇ!と公言していた時期もあったのだ。

                                      PagerDutyにProduct Evangelistとして入社しました - Cloud Penguins
                                    • PagerDutyを用いたアラート対応改善の取り組みとTips紹介 - freee Developers Hub

                                      はじめに こんにちは!freee の Enabling SRE チームに所属している阿部 寛明 (uryy)と申します。freeeのシステムを運用する際にはDatadogからの通知をもとにアラート対応するケースが多いのですが、組織拡大により従来の方法ではうまくワークしない箇所もでてきたので改善に取り組んでおります。今回はその一環で進めているPagerDuty導入の取り組みとその際に気づいたTipsについて紹介します。 PagerDutyについて PagerDutyは監視ツールやアプリケーションからのアラートを受けてインシデント発生を担当者にオンコール通知するプラットフォームサービスです。オンコール機能だけでなく、受け取ったアラートのトリアージやシフトに基づいたエスカレーションも可能となっています。freeeでは下記図のようなシステム連携の環境構築を進めています。 システム連携イメージ 現在

                                        PagerDutyを用いたアラート対応改善の取り組みとTips紹介 - freee Developers Hub
                                      • 「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜|インシデント管理プラットフォーム│PagerDuty

                                        ユーザーニーズの変化が激しい現代において、アジャイル開発を導入するなどして開発スピードを向上させることが重要です。しかし、スピーディーな開発をめざす一方で、システムの安定性の維持が難しいと悩んでいる方もいるのではないでしょうか。そこで注目されているのが、開発の高速化とシステムの安定性を両立するための方法論である「SRE(Site Reliability Engineering・サイト信頼性エンジニアリング)」です。この記事では、SREの基本を知りたい方に向け「概要」「主要な指標」「DevOpsとの違い」「SRE実践におけるポイント」といったポイントをわかりやすくご紹介します。 SREとは 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運用を支えるための方法論とし

                                          「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜|インシデント管理プラットフォーム│PagerDuty
                                        • 障害対応入門記事まとめ〜システム運用担当者になったらまず読むべき記事を厳選!〜|インシデント管理プラットフォーム│PagerDuty

                                          概念理解編1️⃣ システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜企業にとって甚大な損失とともに伝えられるシステム障害のニュースを耳にすると、自社のシステム障害対策に不安を覚える方もいるのではないでしょうか。現代のシステム障害対策では、予防策に加え、より迅速な障害対応が求められます。システム障害が発生すると大きな損失につながり、1分1秒でも早い復旧が望まれるためです。そこで、システム障害の対策と対応において重要性が増しているのが「インシデント管理」です。適切なインシデント管理は、サービスの正常な利用を妨げるあらゆる事象への素早い対応を実現し、迅速な復旧につながります。本記事では、システム障害のリスクや対応策、そしてシステム障害への対策を考える際に知っておきたい「インシデント管理」とは何かを解説します。 ✅記事はコチラ 2️⃣ 「DevOps」とは?〜超基本から実践のポイン

                                            障害対応入門記事まとめ〜システム運用担当者になったらまず読むべき記事を厳選!〜|インシデント管理プラットフォーム│PagerDuty
                                          • 2024年7月の世界的な大規模システム障害から学ぶこと〜企業が留意すべき未来に向けたベストプラクティス〜 | インシデント管理プラットフォーム│PagerDuty

                                            2024年7月19日(金)に発生した、世界規模のシステム障害(インシデント)においてPagerDutyが分析したところ、インシデント発生は通常と比較して最大150%増加しており、PagerDuty上での復旧作業には通常よりも200%多い人員が投入されたことがわかりました。 この数ヶ月間で重大インシデントは前年比で40%増加しており、さらに、PagerDutyが2024年6月に公表したグローバル調査によると、ITリーダーの90%がシステム障害に起因する混乱が企業に対する顧客の信頼を低下させたと回答しています。また、ITリーダーの69%が障害が発生した際に顧客からの信頼を保つための投資が不足しているとも回答しています。 日々の業務、日常生活がデジタル化されている今日において、このようなインシデントはもはや避けることが難しく、インシデント発生はある種の”New Normal”であると言えるでしょ

                                              2024年7月の世界的な大規模システム障害から学ぶこと〜企業が留意すべき未来に向けたベストプラクティス〜 | インシデント管理プラットフォーム│PagerDuty
                                            • ポストモーテムテンプレート - PagerDuty Incident Response Documentation

                                              これはPagerDutyで利用している標準的なポストモーテムのテンプレートです。 それぞれのセクションでは、あなたがポストモーテムに書くべき情報について説明します。 ガイドライン このページはインシデント発生後5営業日以内に設定されるポストモーテムのミーティングで確認することを目的とします。 最初のステップはインシデント発生の5営業日以内に、共有カレンダーにミーティングを設定することです。 情報が埋まるまでミーティングの設定を待ってはいけませんが、ミーティングまでにページができているようにしてください。 ** ポストモーテムのオーナー:** ここにはあなたの名前が入ります。 ** ミーティングの対象:** インシデント発生後5営業日以内に、「インシデントポストモーテムミーティング」を共有カレンダーにスケジュールします。ここに日付を入力してください ** 通話の記録:** インシデントの通話

                                                ポストモーテムテンプレート - PagerDuty Incident Response Documentation
                                              • Twilio も PagerDuty も使わない、アラート電話の仕組みを構築した話 - asken テックブログ

                                                こんにちは。asken でインフラエンジニアをしている沼沢です。 今回は、緊急性の高いアラートを検知した際の電話連絡の仕組みについてお話します。 抱えていた課題 弊社では、元々システム監視はしていたものの、検知時はメールや Slack の通知に留まっており、システムが深刻な状態となった場合に架電する仕組みがありませんでした。 休日や夜間に深刻な状態となった場合にメールや Slack 通知だけでは気付きづらく、早急に対処しなければならない状況の検知が遅れる懸念がありました。 検討したソリューション Twilio まず、自身が利用したことのある Twilio を使った架電を検討しました。 しかし思い出したのは、電話番号取得時に日本の法に準拠するために必要な各種手続きの面倒さでした。 https://support.twilio.com/hc/en-us/articles/44061586621

                                                  Twilio も PagerDuty も使わない、アラート電話の仕組みを構築した話 - asken テックブログ
                                                • dbt Cloudのジョブがエラーになったら(Cloud Runを使って)PagerDutyにインシデントとして挙がるようにしてみた | DevelopersIO

                                                  大阪オフィスの玉井です。 dbt Cloudの利用が本格的になってくると、ジョブが何らかのエラーでこけた場合、早急な対応が求められてくると思います(データ変換が止まる→BIツールや機械学習等といった下流のデータ利用に支障が出る→ビジネス的にヤバい)。 そういうユーザーのために、dbt Cloudには、ジョブが失敗したときの通知の仕組みに関する機能が色々用意されています。その中でも、今回はPagerDutyと連携する方法を実際に試してみました。 やることの概要 Webhookを利用する 最近(2023年3月現在)、dbt CloudのジョブがWebhookに対応しました。 これまでは、dbt側のAPIを定期的にポーリングする等して、こちら側が能動的にジョブのステータスを確認する必要がありました。しかし、Webhookに対応してくれたおかげで、こちら側から定期的に確認せずとも、ジョブがこけたタ

                                                    dbt Cloudのジョブがエラーになったら(Cloud Runを使って)PagerDutyにインシデントとして挙がるようにしてみた | DevelopersIO
                                                  • PagerDutyを活用したオンコール運用の軌跡

                                                    こんにちは! 株式会社ココナラのHead of Informationに任命された ゆーた(@yuta_k0911)です。 PagerDuty Advent Calendar 2023の18日目の記事です! ココナラでは2016年からPagerDutyを使っています。(私が入社する4年も前から・・・) PagerDuty導入以前のオンコール運用や導入後から現在に至るまでどのような利用・工夫をしていて、今後どう利活用しようとしているか?をアドベントカレンダーの記事にしてみます! 私の推し機能も紹介します。 ぜひ、PagerDutyを利用検討中の方もご覧ください! 実は会社名義でアドベントカレンダーに参加するのはこれが初めてです💦 初歩的な内容が多いと思いますが、お付き合いください🙇‍♂ ココナラでのPagerDutyの使い方 PagerDutyを使い始めたのは私が着任する前ですので、想像

                                                      PagerDutyを活用したオンコール運用の軌跡
                                                    • ルーティン業務を劇的に改善する「Runbook(ランブック)」とは?|インシデント管理プラットフォーム│PagerDuty

                                                      オペレーション業務には、予期せぬ業務の発生がつきものです。「すぐには解決できないインシデントや問題」に直面することも珍しくありません。その際に、もし担当者自身ですぐに判断や対応ができない場合、どうすればよいでしょうか?例えば、「解決策を見つけるためにGoogleで検索する」「社内Wikiやドキュメントに目を通す」「共有スクリプトの場所を探す」「同僚に尋ねる」など、ありとあらゆる方法を試されるかもしれません。あるいは別の部署へエスカレーションする方もいらっしゃるかも。問題解決に向けた行動には実にさまざまな方法があります。初めて発生した問題であれば、試行錯誤することもあります。しかし、よく発生する問題で何度も同じ解決策を調べていることは、効率性の観点から見直すべきかもしれません。さらにいうと、重大なインシデント対応の最初の段階で、経験の浅い担当者が最も効率が良いとは言えない手段で、時間をかけて

                                                        ルーティン業務を劇的に改善する「Runbook(ランブック)」とは?|インシデント管理プラットフォーム│PagerDuty
                                                      • PagerDutyでアラートメール通知を電話通知に変える - GMOインターネットグループ グループ研究開発本部

                                                        こんにちは。次世代システム研究室のM.Mです。 近頃のWEBサービスは、他社のサービスや自社でも他グループのサービスと連携して構成されているケースが多いのではないでしょうか? サービス間同士の連携について意識した設計がされていないと、あるサービスがダウンしたら、引きずられて私たちが開発・運用するサービスも提供できない状態になってしまうことがあります。 その逆もあり、私たちが開発・運用するサービスがダウンしたら、連携しているサービスも提供できなくなってしまうこともあります。 もちろんそのような障害が発生しないような設計や対策をすることも重要ではありますが、特に障害発生後に盛り上がる問題があります。 障害に気づくのが遅い。 障害の連絡がない。遅い。 誰が対応しているのか分からない。 状況確認したくて連絡するが、担当者につながらない。 私たちが開発・運用するサービスの障害に、私たちより先に連携し

                                                        • インシデントコマンダー業務解説~仕事の流れと必要な資質~|インシデント管理プラットフォーム│PagerDuty

                                                          おさらい: インシデントコマンダーとは前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。 インシデントコマンダーの役割意思決定作業担当への指示作業要員や関連部署の招集・体制構築ステークホルダーとのコミュニケーション状況の交通整理インシデントの発生と収束の宣言ポストモーテムの作成指示インシデント発生時の対応の流れインシデントが発生した際、インシデントコマンダーは状況を素早く把握し、適切な対応を取ることが求められます。ここでは、インシデントコマンダーが進めるべき対応の流れを説明します。 1️⃣ 状況の把握(Size-Up)まず、インシデントの症状を特定し、影響範囲を確認しま

                                                            インシデントコマンダー業務解説~仕事の流れと必要な資質~|インシデント管理プラットフォーム│PagerDuty
                                                          • PagerDuty の導入支援 | クラスメソッド株式会社

                                                            クラスメソッドのAWS総合支援 コスト最適化からセキュリティ、構築支援、運用保守まで、AWS活用を支援します。

                                                              PagerDuty の導入支援 | クラスメソッド株式会社
                                                            • PagerDutyにAmazon GuardDutyを統合してアラートを通知させてみた | DevelopersIO

                                                              PagerDuty x Amazon GuardDutyでSaaSを利用したGuardDutyのインシデント管理を体験してみませんか?? みなさん、こんにちは。 明るい笑顔がトレードマーク、ルイボスティーが大好きな芦沢(@ashi_ssan)です。 みなさん、インシデント管理していますか? AWS上のシステムを安定稼働させるために、サーバーメトリクス、ログ、セキュリティなどをはじめとした項目の監視は必須ですよね。 AWSにおける監視サービスといえばCloudWatchがありますが、リソースを監視をより楽にするツールはAWS以外にたくさんあるため、運用負荷を軽減するためのツールの導入を進めていくとアラートを検知した際の通知や煩雑になってきます。 さらに、インシデントが起きた際はさまざまな監視ツールでアラートが検知されることもあると思います。その度複数のツールを行き来していると疲弊してしまうで

                                                                PagerDutyにAmazon GuardDutyを統合してアラートを通知させてみた | DevelopersIO
                                                              • PagerDutyのオンコールシフトをSlackでリマインドする〜TypeScriptとAWS CDKで実装〜 - Qiita

                                                                この記事はPagerDuty Advent Calendar 2023の25日目の記事です。 PagerDutyのオンコールシフトをSlackでリマインドしたい 🎄メリークリスマス🎅 NewsPicksのSREチームで障害対応をよくやっているあんどぅといいます。 先日、ゆるSRE勉強会 #3という勉強会でNewsPicksの開発組織のオンコールの体制とポストモーテムの取り組みを発表させていただきまして、その文脈でPagerDutyをどのように活用しているのかを実装とともにご紹介させていただきます。 弊社ではモバイル担当1名サーバー担当2名の3名のエンジニアが一週間に2交代制(3.5日シフト)でオンコールを担当します。オンコール担当のことを運用当番と呼んでいるのですが、PagerDutyのオンコール設定は非常〜に便利なので 3.5日のうち有給取得するので1日だけOverride Laye

                                                                  PagerDutyのオンコールシフトをSlackでリマインドする〜TypeScriptとAWS CDKで実装〜 - Qiita
                                                                1

                                                                新着記事