タグ

monitoringとcaseに関するsheeploghのブックマーク (6)

  • SLO設定/超過監視にまつわる活動の振り返り - エムスリーテックブログ

    ※ この記事は SRE Advent Calendar 16日目の記事です。 皆さんこんにちは。エムスリーという会社でSREをしている高橋です。 早いもので、今年ももう終わりですね... ! そこで記事ではエムスリーのSREチームがこの1年の間に実施してきたSLO設定及びSLO超過監視活動を反省とともにご紹介していきたいと思います!! エムスリーにおけるSREチームの成り立ち かつてはSREがインフラチーム配下のポジションとして存在しているような状況でしたが、肩書は違えど作業内容はほとんど同じだったので、2018年7月からインフラチームがまるっとSREチームへと改称されました。 www.m3tech.blog SLI/SLO設定/監視 SREとしての活動を考えたときに、まずはサービスレベル目標(SLO)を決めてサービスの品質を改善していきたいと思いました。そこで、まずはサービスレベル指標

    SLO設定/超過監視にまつわる活動の振り返り - エムスリーテックブログ
  • 「入門 監視」を読んで見えてきた現状の課題と改善点 - エムスリーテックブログ

    こんにちは、エンジニアリンググループ SREチームの高橋(@tshohe1)です。 「入門 監視」というが各所で話題になっていますが、エムスリーのエンジニアリンググループでも予約購入していました! www.oreilly.co.jp 監視というSREと非常に親和性の高いテーマのだったこともあり、多くのSREメンバがこのに目を通していたようです。 そこでぜひチーム内で感想を共有しようということになり、先日感想共有会が実施されました。 記事ではそのときに挙がった感想を一部抜粋して公開したいと思います。 モニターリザード 各章の感想 「1章 監視のアンチパターン」について 「第2章 監視のデザインパターン」について 「3章 アラート、オンコール、インシデント管理」について 「5章 ビジネスを監視する」について 「6章 フロントエンド監視」について 「7章 アプリケーション監視」について

    「入門 監視」を読んで見えてきた現状の課題と改善点 - エムスリーテックブログ
  • サーバレスアーキテクチャによる時系列データベースの構築と監視 / Serverlessconf Tokyo 2017

    サーバレスアーキテクチャによる時系列データベースの構築と監視

    サーバレスアーキテクチャによる時系列データベースの構築と監視 / Serverlessconf Tokyo 2017
  • Webサービスは振る舞いをモニタリングするべきって話 - そーだいなるらくがき帳

    って話を明日のPHPカンファレンスでする予定でした。 PHPカンファレンス、私用のため私の登壇をキャンセルします。楽しみにされてた皆様、大変申し訳ありません。当日登壇予定だった内容はブログに細かく詳細まで記載して公開します。この度は皆様、ご迷惑をおかけします。 #phpcon2017 https://t.co/qgHogswYeI— そーだい@初代ALF (@soudai1025) 2017年10月6日 ここにあるとおり、雨の影響により、子供の運動会が延期になり、PHPカンファレンスと被ってしまいました。そこで色々悩んでいたところ、スタッフの方が気を利かせて連絡を先にくださり、キャンセルさせていただくことにしました。正直年に1度のお祭ですし、会いたい人も沢山いるイベントですから断腸の思いでした。しかも僕は今年各地のPHPカンファレンスに出れなかったので会えていないPHPerの方が多く居ます

    Webサービスは振る舞いをモニタリングするべきって話 - そーだいなるらくがき帳
  • 継続的テストとしての監視実装例

    その昔hbstudyで @kazuho さんは言いました 「監視は継続的なテストである」 というわけでこんにちはCTOの馬場です。 今回は弊社で実際に適用しているテストケースを紹介します。 ハートビーツと監視システム ハートビーツでは永らくNagiosを使って2拠点から同内容の監視をしています。 最適な監視を実現するためにはNagiosの監視の実体である Nagiosプラグインを自作する必要があり、 ハートビーツでは特に別途費用をいただかず必要なNagiosプラグインを実装しています。 ソースコードは社のGitLabで管理していて、 hb-nagios-plugins グループ配下には100近いリポジトリがあり、 さらにこの他にも案件固有の監視項目用に個別のリポジトリがあります。 要するにたくさんですね。 さきほどざっと hb-nagios-plugins グループ配下のファイル数を確認し

    継続的テストとしての監視実装例
  • モニタリングのためにLibratoを導入しようとしてどのように失敗したか - クックパッド開発者ブログ

    こんにちは、インフラストラクチャー部の菅原(@sgwr_dts)です。 インフラストラクチャー部は基的にクックパッドのインフラに関わる業務を行っていますが、関連会社やグループ会社のインフラまわりについても作業を行ったりお手伝いしたりします。今回、グループ会社である「みんなのウェディング」のAWS化に伴ってそのお手伝いをさせていただいたので、そのときのモニタリングシステムの構築についての失敗談をお話ししたいと思います。 みんなのウェディングのAWS移行 みんなのウェディングは2015年4月にクックパッドグループに加わった結婚式場の口コミサイトです。いままでみんなのウェディングはVPSのホスティングサービスで動いていたのですが、グループ会社化に伴って大規模なリニューアルを進めており、その一環としてAWSへの移行を行いました。 AWSへの移行作業では様々な要素を検討する必要があります。パフォー

    モニタリングのためにLibratoを導入しようとしてどのように失敗したか - クックパッド開発者ブログ
    sheeplogh
    sheeplogh 2015/11/20
    失敗事例の公開はたいへんありがたい。「OS・ミドルウェア毎のメトリクス収集に必要な作業が完璧に抜け落ちており、作業量の見積もりが完全に間違ってしまったことが、失敗の大きな要因」手間かかりますよね・・・
  • 1