タグ

sreに関するteppeisのブックマーク (97)

  • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

    インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。 なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。 「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜 また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。 「インシデント管理」とは?〜システム障害を未然に防ごう〜 エンジニアがオンコール対応に不安を感

    オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
  • 自由研究には向かないウェブオペレーション 

    自由研究には向かないウェブオペレーション サイト運用管理を取り巻く環境の変化 Cloud Native時代に考えるLinux オペレーション というタイトルで登壇してきました。 2023年2月18日 【今更聞けない】Linuxのしくみ - Forkwell Library #16 https:…

    自由研究には向かないウェブオペレーション 
  • Why Twitter Didn’t Go Down: From a Real Twitter SRE

    Twitter supposedly lost around 80% of its work force. What ever the real number is, there are whole teams with out engineers on it now. Yet, the website goes on and the tweets keep coming. This left a lot wondering what exactly was going on with all those engineers and made it seem like it was all just bloat. I’d like to explain my little corner of Twitter (though it wasn’t so little) and some of

    Why Twitter Didn’t Go Down: From a Real Twitter SRE
    teppeis
    teppeis 2022/11/22
    TwitterのSREが語る冗長化・自動化の仕組み。なんでエンジニアが大量解雇されてもすぐには止まらないのか? #rebuildfm の副読本として面白い
  • Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog

    序文 こんにちは。MonotaROの伊藤です。 弊社では障害対応訓練の実施手法の一つであるWheel of Misfortune(略称:WoM)を実践しています。WoMの導入で、障害対応体制の強化を行うことができましたので、実施までの経緯や得られた学びなどを中心に紹介したいと思います 序文 運用担当者の負荷が高まり続ける問題 運用担当者=社歴が長いベテランエンジニア 運用のスケールアウト 障害対応訓練をやってみよう 訓練環境の準備の問題 訓練シナリオの問題 外部からの助け Wheel of Misfortuneとは 実施時の様子 シナリオ開始時の様子 モニタリング画面の表示 WoMとDiRT(Disaster in Recovery Training) 障害対応訓練をやってみた結果 準備時点で感じたメリット 手順書の不備を発見できたこと 障害が起こりかねない場所を考えるきっかけになったこと

    Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog
  • SREリアルティ

    不動産テック 専門性の高いエージェントがテクノロジーを活用するとともに、売主・買主それぞれに専任の担当をおくことで満足度の高い不動産仲介コンサルティングサービスと、IoT技術を駆使したアセットの開発や投資を展開しています。 AIクラウド&コンサルティング事業 AIITを用いたクラウドソリューションやコンサルティング/システムインテグレーションサービスを、不動産業界や金融業界を中心とした様々なクライアント企業に提供し、パートナー企業様の業務のインテリジェント化・効率化を実現します。

    SREリアルティ
    teppeis
    teppeis 2022/08/29
    圧倒的サイトリライアビリティを感じる
  • 実例で学ぶモニタリング定例のすゝめ | CyberAgent Developers Blog

    この記事はCyberAgent Developers Advent Calendar 2021 11日目の記事です。 みゆっきこと山中勇成(@toriimiyukki)です。普段は、ABEMAで動画配信基盤の開発運用を担当しています。 直近では、配信システムの大規模刷新プロジェクトなどを担当しており、こちらの模様はCA BASE NEXTの発表からアーカイブを閲覧可能です。 ABEMAでは、24時間365日のリニア型配信やVOD配信など、昼夜を問わず落とすことができないミッションクリティカルなサービスを運用しています。サービスを支えるマイクロサービスは、配信分野に限っても20サービスを超えています。 既にPrometheusなど、各種モニタリングソリューションでの監視やアラーティングなども行っていますが、この記事では、あえて手動監視を定期的に行う、モニタリング定例を勧めたいと思います。 な

    実例で学ぶモニタリング定例のすゝめ | CyberAgent Developers Blog
  • PairsにおけるSLI/SLO再定義

    https://sre-lounge.connpass.com/event/227250/

    PairsにおけるSLI/SLO再定義
  • GitHub - Unleash/unleash: Open-source feature management platform

    Unleash is a powerful open-source solution for feature management. It streamlines your development workflow, accelerates software delivery, and empowers teams to control how and when they roll out new features to end users. With Unleash, you can deploy code to production in smaller, more manageable releases at your own pace. Feature flags in Unleash let you test your code with real production data

    GitHub - Unleash/unleash: Open-source feature management platform
    teppeis
    teppeis 2021/09/07
    フィーチャートグルの管理ツール。各種言語用のSDKもある。TypeScript製
  • Defining Day-2 Operations

    Day-2 operations doesn't necessarily refer to the 2nd day of operations. Sorry for being Captain Obvious here [sic] but let's clear this up. Once "something" goes into operations, "day 2 operations" is the remaining time period until this "something" isn't killed or replaced with "something else." When we look at the various stages in the life of a business process, application or an IT infrastruc

    Defining Day-2 Operations
    teppeis
    teppeis 2021/08/24
    Day-2 オペレーションとは、あるシステムが稼働開始してから撤去されるまで、稼働し続けるための様々なメンテナンス的な活動のこと
  • Day-2 Operations

    You are here: Day-2 Operations What is "Day-2" More teams across industries are evaluating and running proof of concept projects with new technologies. Many of these technologies directly impact the production environments of critical customer facing applications. Cloud native infrastructure like containers, Kubernetes, and serverless platforms enable rapid development and deployment of new applic

    Day-2 Operations
  • SREの探求

    組織の大小を問わず、システムやアプリケーションの信頼性がビジネスにとって重要なこと、また市場が求めるスピードでイテレーション(反復)しながら、信頼性を維持するのは難しいことが認識されています。サイトリライアビリティエンジニアリング(SRE)は、この課題に対する取り組みです。 書は、大規模なプロダクションシステムの運用において、様々な企業や組織がSREをどのように実践しているかについて紹介します。Microsoft、Dropbox、Google、SoundCloud、Spotify、Amazon、Facebook、LinkedIn、Netflix、Lyftなど、規模や業種、提供するプロダクトやサービスが異なる様々な企業でのSREの導入と発展、そこから得た課題について解説します。 全33章で約40名の著者陣が「SREの導入」「SREの周辺領域」「SREのベストプラクティスと技術」「SREの人

    SREの探求
    teppeis
    teppeis 2021/08/16
    Seeking SREの訳書が9/3に発売
  • SRE at Google: How to structure your SRE team | Google Cloud Blog

    How SRE teams are organized, and how to get started At Google, Site Reliability Engineering (SRE) is our practice of continually defining reliability goals, measuring those goals, and working to improve our services as needed. We recently walked you through a guided tour of the SRE workbook. You can think of that guidance as what SRE teams generally do, paired with when the teams tend to perform t

    SRE at Google: How to structure your SRE team | Google Cloud Blog
    teppeis
    teppeis 2021/05/19
    SREの形式
  • Incident Metrics in SRE

    Štěpán Davidovič Incident Metrics in SRE Critically Evaluating MTTR and Friends Boston Farnham Sebastopol Tokyo Beijing Boston Farnham Sebastopol Tokyo Beijing 978-1-098-10313-2 [LSI] Incident Metrics in SRE by Štěpán Davidovič Copyright © 2021 O’Reilly Media, Inc. All rights reserved. Printed in the United States of America. Published by O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebas

    teppeis
    teppeis 2021/04/28
    MTTRやMTTMは評価指標としては適さない、というGoogle SREによるモンテカルロシミュレーションを使った研究結果。障害は発生頻度が少なく継続時間の分散が大きいことが要因 #e34fm
  • The Many Shapes of Site Reliability Engineering

    In my role as a Cloud and SRE Practice Lead at Slalom Build, I am fortunate to talk to a wide range of organizations, from smaller mid-market companies all the way to astoundingly large and complex enterprises, all from an equally wide range of industries. There is no doubt about it, Site Reliability Engineering (SRE) is the latest hot topic. These companies are looking to reduce the impact and ri

    The Many Shapes of Site Reliability Engineering
    teppeis
    teppeis 2021/01/29
  • 開発チームとともに歩むSREチームが成し遂げたいこと | メルカリエンジニアリング

    こんにちは、メルカリMicroservices SREチームでEngineering Managerをしている@m4buyaこと渋谷です。 メルカリでは、昨年6月にSREチームの一部をマイナーアップデートし、プロダクトチームに寄り添いSREとしての専門性を活かし信頼性に貢献していくMicroservices SREチームを発足しました。記事では、そうするに至った背景、何を目指しているのか、これまでに出来たこととまだ出来ていないことを振り返り、今後の展望についてご紹介します。 背景 メルカリでは、2015年よりSREチームを立ち上げ、お客様が安心・安全にメルカリサービスを利用していただくためのシステムの信頼性の維持向上に取り組んできました。年々プロダクトとして成長を続け、トラフィックも増加する一方のメルカリサービスに求められるスケーラビリティ向上において、メルカリSREチームは大きな役割を

    開発チームとともに歩むSREチームが成し遂げたいこと | メルカリエンジニアリング
  • Stability Patterns ... and Antipatterns

    As presented at Velocity 2012 in Santa Clara, CA.

    Stability Patterns ... and Antipatterns
    teppeis
    teppeis 2021/01/06
    Release It! の著者による、サーキットブレイカーとかの話
  • STORESを支える「運用週」という仕組み - STORES Product Blog

    みなさんは「保守・運用」と聞くとどのようなイメージをお持ちでしょうか? もしかしたら良いイメージをお持ちでない方もいらっしゃるかもしれません。 しかし、売り上げを生み出している既存コードの保守運用はビジネス上、新規機能開発と同等かそれ以上に重要な存在です。 保守運用は歴史あるサービスでは欠かせない作業ですが、STORESもその例外ではありません。 STORESの最初のコードが書かれてから、8年の歳月が経ちました。 今となってはコードの量も多く、今年(2020年)の8月に入社した私(@zakky)も全体を把握しきれてはいません。 STORESにジョインした最初の1ヶ月間、「商品の在庫数を一括で更新する機能」の開発に私は専念しており、その他の機能のコードを触る機会がほとんどありませんでした。 目の前のチケットを消化していくのに必死で、周りを見る余裕が無かったとも言えます。 「運用週」との出会い

    STORESを支える「運用週」という仕組み - STORES Product Blog
    teppeis
    teppeis 2020/12/01
    「運用週とは、1週間プロジェクトから離れて以下の運用・保守作業に専念する週のこと」
  • SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか?アラートの監視項目はどのように設定して、基準値をどのように決めていますか? 社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。 またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。 この記事ではAWSkintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート 国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。 しかし現状のSLOはkinton

    SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ
    teppeis
    teppeis 2020/11/16
    派手じゃないけど地道にやらないといけない世界
  • Waypointとは何か

    Hashicorpの2020年冬の新作 Waypoint (リリースブログ)に関してドキュメントなどをざっと眺めてみたので最初の印象をちょっと書いてみる.ちゃんとしたレビューは @copyconstruct の記事 Waypoint とか読むのが良い.毎度のことながらドキュメントやガイドはかなりちゃんとしたのがあるので使い方とかはそっちを読んだ方がいい.以下に書くのはざっくりした個人の感想(ちなみにもう一つのBoundaryに関してはZero Touch Productionとは何か に軽く書いた). What is Waypoint Waypointは,KubernetesやNomad,Amazon ECS,Google Cloud RunといったPlatformの上にBuild,DeployとReleaseの一貫したWorkflowを実現するツール.使ってる言語やそのパッケージ方法や,

  • SRE Lounge #7 Gunosy版「SREミッション」策定

    Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything

    SRE Lounge #7 Gunosy版「SREミッション」策定
    teppeis
    teppeis 2020/10/17