[B! sre] teppeisのブックマーク

オンコール対応とは？〜現場担当者が語るオンコール対応の不安解消方法を解説!～|インシデント管理プラットフォーム│PagerDuty

インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。「インシデント対応」とは？〜効率的な体制構築のポイントを解説〜また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。「インシデント管理」とは？〜システム障害を未然に防ごう〜エンジニアがオンコール対応に不安を感

teppeis 2024/05/02

リンク

自由研究には向かないウェブオペレーション

自由研究には向かないウェブオペレーションサイト運用管理を取り巻く環境の変化 Cloud Native時代に考えるLinux オペレーションというタイトルで登壇してきました。 2023年2月18日【今更聞けない】Linuxのしくみ - Forkwell Library #16 https:…

teppeis 2023/02/19

devops
sre

リンク

Why Twitter Didn’t Go Down: From a Real Twitter SRE

Twitter supposedly lost around 80% of its work force. What ever the real number is, there are whole teams with out engineers on it now. Yet, the website goes on and the tweets keep coming. This left a lot wondering what exactly was going on with all those engineers and made it seem like it was all just bloat. I’d like to explain my little corner of Twitter (though it wasn’t so little) and some of

teppeis 2022/11/22

TwitterのSREが語る冗長化・自動化の仕組み。なんでエンジニアが大量解雇されてもすぐには止まらないのか？ #rebuildfm の副読本として面白い

twitter
sre

リンク

Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog

序文こんにちは。MonotaROの伊藤です。弊社では障害対応訓練の実施手法の一つであるWheel of Misfortune(略称:WoM)を実践しています。WoMの導入で、障害対応体制の強化を行うことができましたので、実施までの経緯や得られた学びなどを中心に紹介したいと思います序文運用担当者の負荷が高まり続ける問題運用担当者=社歴が長いベテランエンジニア運用のスケールアウト障害対応訓練をやってみよう訓練環境の準備の問題訓練シナリオの問題外部からの助け Wheel of Misfortuneとは実施時の様子シナリオ開始時の様子モニタリング画面の表示 WoMとDiRT(Disaster in Recovery Training) 障害対応訓練をやってみた結果準備時点で感じたメリット手順書の不備を発見できたこと障害が起こりかねない場所を考えるきっかけになったこと

teppeis 2022/09/08

google
sre

リンク

SREリアルティ

不動産テック専門性の高いエージェントがテクノロジーを活用するとともに、売主・買主それぞれに専任の担当をおくことで満足度の高い不動産仲介コンサルティングサービスと、IoT技術を駆使したアセットの開発や投資を展開しています。 AIクラウド＆コンサルティング事業 AIとITを用いたクラウドソリューションやコンサルティング／システムインテグレーションサービスを、不動産業界や金融業界を中心とした様々なクライアント企業に提供し、パートナー企業様の業務のインテリジェント化・効率化を実現します。

teppeis 2022/08/29

圧倒的サイトリライアビリティを感じる

sre

リンク

実例で学ぶモニタリング定例のすゝめ | CyberAgent Developers Blog

この記事はCyberAgent Developers Advent Calendar 2021 11日目の記事です。みゆっきこと山中勇成(@toriimiyukki)です。普段は、ABEMAで動画配信基盤の開発運用を担当しています。直近では、配信システムの大規模刷新プロジェクトなどを担当しており、こちらの模様はCA BASE NEXTの発表からアーカイブを閲覧可能です。 ABEMAでは、24時間365日のリニア型配信やVOD配信など、昼夜を問わず落とすことができないミッションクリティカルなサービスを運用しています。サービスを支えるマイクロサービスは、配信分野に限っても20サービスを超えています。既にPrometheusなど、各種モニタリングソリューションでの監視やアラーティングなども行っていますが、この記事では、あえて手動監視を定期的に行う、モニタリング定例を勧めたいと思います。な

teppeis 2021/12/13

リンク

PairsにおけるSLI/SLO再定義

https://sre-lounge.connpass.com/event/227250/

teppeis 2021/11/20

sre
slo

リンク

GitHub - Unleash/unleash: Open-source feature management platform

Unleash is a powerful open-source solution for feature management. It streamlines your development workflow, accelerates software delivery, and empowers teams to control how and when they roll out new features to end users. With Unleash, you can deploy code to production in smaller, more manageable releases at your own pace. Feature flags in Unleash let you test your code with real production data

teppeis 2021/09/07

フィーチャートグルの管理ツール。各種言語用のSDKもある。TypeScript製

devops
sre

リンク

Defining Day-2 Operations

Day-2 operations doesn't necessarily refer to the 2nd day of operations. Sorry for being Captain Obvious here [sic] but let's clear this up. Once "something" goes into operations, "day 2 operations" is the rem aining time period until this "something" isn't killed or replaced with "something else." When we look at the various stages in the life of a business process, application or an IT infrastruc

teppeis 2021/08/24

Day-2 オペレーションとは、あるシステムが稼働開始してから撤去されるまで、稼働し続けるための様々なメンテナンス的な活動のこと

sre
devops

リンク

Day-2 Operations

You are here: Day-2 Operations What is "Day-2" More teams across industries are evaluating and running proof of concept projects with new techno logies. Many of these techno logies directly impact the production environments of critical customer facing applications. Cloud native infrastructure like containers, Kubernetes, and serverless platforms enable rapid development and deployment of new applic

teppeis 2021/08/24

sre
devops

リンク

SREの探求

組織の大小を問わず、システムやアプリケーションの信頼性がビジネスにとって重要なこと、また市場が求めるスピードでイテレーション（反復）しながら、信頼性を維持するのは難しいことが認識されています。サイトリライアビリティエンジニアリング（SRE）は、この課題に対する取り組みです。本書は、大規模なプロダクションシステムの運用において、様々な企業や組織がSREをどのように実践しているかについて紹介します。Microsoft、Dropbox、Google、SoundCloud、Spotify、Amazon、Facebook、LinkedIn、Netflix、Lyftなど、規模や業種、提供するプロダクトやサービスが異なる様々な企業でのSREの導入と発展、そこから得た課題について解説します。全33章で約40名の著者陣が「SREの導入」「SREの周辺領域」「SREのベストプラクティスと技術」「SREの人

teppeis 2021/08/16

Seeking SREの訳書が9/3に発売

リンク

SRE at Google: How to structure your SRE team | Google Cloud Blog

How SRE teams are organized, and how to get started At Google, Site Reliability Engineering (SRE) is our practice of continually defining reliability goals, measuring those goals, and working to improve our services as needed. We recently walked you through a guided tour of the SRE workbook. You can think of that guidance as what SRE teams generally do, paired with when the teams tend to perform t

teppeis 2021/05/19

SREの形式

sre

リンク

Incident Metrics in SRE

Štěpán Davidovič Incident Metrics in SRE Critically Evaluating MTTR and Friends Boston Farnham Sebastopol Tokyo Beijing Boston Farnham Sebastopol Tokyo Beijing 978-1-098-10313-2 [LSI] Incident Metrics in SRE by Štěpán Davidovič Copyright © 2021 O’Reilly Media, Inc. All rights reserved. Printed in the United States of America. Published by O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebas

teppeis 2021/04/28

MTTRやMTTMは評価指標としては適さない、というGoogle SREによるモンテカルロシミュレーションを使った研究結果。障害は発生頻度が少なく継続時間の分散が大きいことが要因 #e34fm

sre

リンク

The Many Shapes of Site Reliability Engineering

In my role as a Cloud and SRE Practice Lead at Slalom Build, I am fortunate to talk to a wide range of organizations, from smaller mid-market companies all the way to astoundingly large and complex enterprises, all from an equally wide range of industries. There is no doubt about it, Site Reliability Engineering (SRE) is the latest hot topic. These companies are looking to reduce the impact and ri

teppeis 2021/01/29

sre

リンク

開発チームとともに歩むSREチームが成し遂げたいこと | メルカリエンジニアリング

こんにちは、メルカリMicroservices SREチームでEngineering Managerをしている@m4buyaこと渋谷です。メルカリでは、昨年6月にSREチームの一部をマイナーアップデートし、プロダクトチームに寄り添いSREとしての専門性を活かし信頼性に貢献していくMicroservices SREチームを発足しました。本記事では、そうするに至った背景、何を目指しているのか、これまでに出来たこととまだ出来ていないことを振り返り、今後の展望についてご紹介します。背景メルカリでは、2015年よりSREチームを立ち上げ、お客様が安心・安全にメルカリサービスを利用していただくためのシステムの信頼性の維持向上に取り組んできました。年々プロダクトとして成長を続け、トラフィックも増加する一方のメルカリサービスに求められるスケーラビリティ向上において、メルカリSREチームは大きな役割を

teppeis 2021/01/29

sre
mercari

リンク

Stability Patterns ... and Antipatterns

As presented at Velocity 2012 in Santa Clara, CA.

teppeis 2021/01/06

Release It! の著者による、サーキットブレイカーとかの話

リンク

STORESを支える「運用週」という仕組み - STORES Product Blog

みなさんは「保守・運用」と聞くとどのようなイメージをお持ちでしょうか？もしかしたら良いイメージをお持ちでない方もいらっしゃるかもしれません。しかし、売り上げを生み出している既存コードの保守運用はビジネス上、新規機能開発と同等かそれ以上に重要な存在です。保守運用は歴史あるサービスでは欠かせない作業ですが、STORESもその例外ではありません。 STORESの最初のコードが書かれてから、8年の歳月が経ちました。今となってはコードの量も多く、今年(2020年)の8月に入社した私(@zakky)も全体を把握しきれてはいません。 STORESにジョインした最初の1ヶ月間、「商品の在庫数を一括で更新する機能」の開発に私は専念しており、その他の機能のコードを触る機会がほとんどありませんでした。目の前のチケットを消化していくのに必死で、周りを見る余裕が無かったとも言えます。「運用週」との出会い

teppeis 2020/12/01

「運用週とは、1週間プロジェクトから離れて以下の運用・保守作業に専念する週のこと」

devops
sre

リンク

SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか？アラートの監視項目はどのように設定して、基準値をどのように決めていますか？社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。しかし現状のSLOはkinton

teppeis 2020/11/16

派手じゃないけど地道にやらないといけない世界

cybozu
sre

リンク

Waypointとは何か

Hashicorpの2020年冬の新作 Waypoint (リリースブログ)に関してドキュメントなどをざっと眺めてみたので最初の印象をちょっと書いてみる．ちゃんとしたレビューは @copyconstruct の記事 Waypoint とか読むのが良い．毎度のことながらドキュメントやガイドはかなりちゃんとしたのがあるので使い方とかはそっちを読んだ方がいい．以下に書くのはざっくりした個人の感想（ちなみにもう一つのBoundaryに関してはZero Touch Productionとは何かに軽く書いた）． What is Waypoint Waypointは，KubernetesやNomad，Amazon ECS，Google Cloud RunといったPlatformの上にBuild，DeployとReleaseの一貫したWorkflowを実現するツール．使ってる言語やそのパッケージ方法や，