タグ

監視と障害に関するwasaiのブックマーク (8)

  • 入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean

    システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門 監視」やSREに書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム オライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。 役割分担の基 「入門 監視」に

    入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
  • 東証、障害の原因を特定 「自動切り替えできない設定値になっていた」

    東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、4日中に修正したと発表した。 障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。 arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。 調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。 稼働前のテストでは、1号機と2号機相互

    東証、障害の原因を特定 「自動切り替えできない設定値になっていた」
  • 障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳

    先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g

    障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
  • 初めて監視担当になるキミへ送りたい一次対応者の心構え - SMARTCAMP Engineer Blog

    こんにちは。スマートキャンプエンジニアの今川(@ug23_)です。23という数字は私の大好きな数字です。 記事はスマートキャンプ Advent Calendar 2019 - Qiitaの23日目の記事です。 監視当番: 年末年始の恒例行事 開発に加えて運用・保守を担うプロダクト開発チームにとって、年末年始といえばアレを決めないといけない時期です。 クリスマスパーティの場所?忘年会の日程?大掃除の分担? …そうですね!監視当番です! 帰省する人、海外で過ごす人、ひとりで過ごす人さまざまでしょうが、監視当番をきめてその人は一次対応できるようにしておく、というのを他社でもやっていると思います。 この記事では監視担当になったときに大切な心構えをまとめてみました。よければ参考にしてください。これも必要だよ!というのがあればぜひTwitterやブックマークのコメントで書いていただければ私の参考にさ

    初めて監視担当になるキミへ送りたい一次対応者の心構え - SMARTCAMP Engineer Blog
    wasai
    wasai 2019/12/23
    二次災害はよくあるなあ
  • 「入門 監視」を読んでからの取り組みを紹介します - WILLGATE TECH BLOG

    「入門 監視」を読んだ フロントエンド監視 なぜフロントエンド監視が必要なのか どうやってフロントエンド監視をしているのか Runbookを作ろう なぜRunbookが必要なのか Runbookをどう使っていくか 監視の民主化 勉強会開催 今後 こんにちは!インフラチームの小林です。 今回はインフラチームが現在取り組んでいる、運用環境の改善施策を紹介します。 「入門 監視」を読んだ 2019年01月 に「入門 監視」というが O'Reilly Japanから出版されました。 www.oreilly.co.jp 『システムをどう監視したらよいのか』『監視の仕組みをどう作ったらよいのか』について紹介しているです。 実践したい事、反省する事だらけですが、フロントエンド監視とRunbook作成から始めています。 フロントエンド監視 なぜフロントエンド監視が必要なのか Webサイトの表示スピード

    「入門 監視」を読んでからの取り組みを紹介します - WILLGATE TECH BLOG
  • 監視について思うとこ - y-ohgi's blog

    TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングする ダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良い アラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する 監視とは サービスを健全に動作させ続けるために監視を行います。 「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。 最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。 さてユーザーにサービスを提供するために何を監視しましょうか? クラウド前提であれば個人的にリソースベース(CPU/Memory)より、 SLI/SLOをベース に監視する事が望ましいと考えてい

    監視について思うとこ - y-ohgi's blog
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

    こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSREの15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
  • ソフトバンク大規模通信障害の原因:Geekなぺーじ

    2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。 ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。 この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。 ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。 どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか

  • 1