[B! 監視][障害] wasaiのブックマーク

wasai id:wasai

監視と障害に関するwasaiのブックマーク (8)

入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門監視」やSRE本に書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームオライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。役割分担の基本「入門監視」に
wasai 2021/12/03
障害

監視

本

エンジニア
リンク
東証、障害の原因を特定　「自動切り替えできない設定値になっていた」
東京証券取引所は10月5日、株式売買システム「arrowhead」（アローヘッド）で1日に発生した障害の原因を特定し、4日中に修正したと発表した。障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。 arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。稼働前のテストでは、1号機と2号機相互
wasai 2020/10/07
障害

設定

監視

ストレージ
リンク
障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。今回のスコープの外実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。まずissueを作ると良い本題です。トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g
wasai 2020/04/30
障害

ドキュメント

github

監視
リンク
初めて監視担当になるキミへ送りたい一次対応者の心構え - SMARTCAMP Engineer Blog
こんにちは。スマートキャンプエンジニアの今川(@ug23_)です。23という数字は私の大好きな数字です。本記事はスマートキャンプ Advent Calendar 2019 - Qiitaの23日目の記事です。監視当番: 年末年始の恒例行事開発に加えて運用・保守を担うプロダクト開発チームにとって、年末年始といえばアレを決めないといけない時期です。クリスマスパーティの場所？忘年会の日程？大掃除の分担？ …そうですね！監視当番です！帰省する人、海外で過ごす人、ひとりで過ごす人さまざまでしょうが、監視当番をきめてその人は一次対応できるようにしておく、というのを他社でもやっていると思います。この記事では監視担当になったときに大切な心構えをまとめてみました。よければ参考にしてください。これも必要だよ！というのがあればぜひTwitterやブックマークのコメントで書いていただければ私の参考にさ
wasai 2019/12/23
二次災害はよくあるなあ

監視

障害
リンク
「入門監視」を読んでからの取り組みを紹介します - WILLGATE TECH BLOG
「入門監視」を読んだフロントエンド監視なぜフロントエンド監視が必要なのかどうやってフロントエンド監視をしているのか Runbookを作ろうなぜRunbookが必要なのか Runbookをどう使っていくか監視の民主化勉強会開催今後こんにちは！インフラチームの小林です。今回はインフラチームが現在取り組んでいる、運用環境の改善施策を紹介します。「入門監視」を読んだ 2019年01月に「入門監視」という本が O'Reilly Japanから出版されました。 www.oreilly.co.jp 『システムをどう監視したらよいのか』『監視の仕組みをどう作ったらよいのか』について紹介している本です。実践したい事、反省する事だらけですが、フロントエンド監視とRunbook作成から始めています。フロントエンド監視なぜフロントエンド監視が必要なのか Webサイトの表示スピード
wasai 2019/09/27
監視

インフラ

障害
リンク
監視について思うとこ - y-ohgi's blog
TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングするダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良いアラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する監視とはサービスを健全に動作させ続けるために監視を行います。「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。さてユーザーにサービスを提供するために何を監視しましょうか？クラウド前提であれば個人的にリソースベース（CPU/Memory）より、 SLI/SLOをベースに監視する事が望ましいと考えてい
wasai 2019/08/19
監視

設定

サービス

障害
リンク
バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。過去の記事はこちらにあります。運用に備えてバッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。プリモーテムポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使
wasai 2019/04/18
監視

運用

障害
リンク
ソフトバンク大規模通信障害の原因:Geekなぺーじ
2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか
wasai 2019/02/05
ソフトバンク

障害

監視

通信
リンク
1