[B! sre] usadamasaのブックマーク

社内でSREを広めるのに苦戦しているSREsにITIL 4がいい感じっぽいので共有したい

これは SREアドベントカレンダー 2022 - Qiita 2日目のエントリです。昨日はみのるん☁️（@minorun365）さんの Let's see AWS W-A "Reliability Pillar" from SRE's view でした。 TL; DR SRE的な取り組みを社内で広めていくにあたり、自チームから外への普及に苦戦しているのであれば、ITIL 4が助けになるかもしれません "ITIL" のいいところは、歴史と権威があるところ、ガッツリ言語化されているところで、 "ITIL" の残念なところは、古臭い、柔軟性がなく堅苦しく固定的、実践的かどうかより手続き重視というイメージだった（個人的な印象） ITIL 4について知ったところ「"ITIL" の残念なところ」が払拭された Disclaimer ITIL 4の資格を取得したりはしていませんわたし自身が特段IT

usadamasa 2023/03/21

sre

リンク

How to avoid Security Group changes corruption in terraform by applying Open Policy Agents (OPA)? - Money Forward Developers Blog

Introduction Hi everyone, I'm @tnqv, a Platform SRE in the Service Infrastructure Division, developing the infrastructure for the entire company. Today, based on our experienced real-world use cases, I would like to share about how we are applying Open Policy Agents to the Platform in order to protect the SLA by avoiding Security Group changes's corruption in Terraform. What is Platform? From the

usadamasa 2022/06/01

sre

リンク

SRE NEXT 2022 ONLINEに「一人から始めるプロダクトSRE」で登壇しました - VTRyo Blog

5月14・15日に開催されたSRE NEXT 2022 ONLINEの初日セッションで登壇させていただきました。前回の2020年版では初めて大きな規模のカンファレンスに参加したという思い入れもあり、中々感慨深いものがあります。 blog.vtryo.me なお公募プロポーザルに出したのも今回が初めての経験で、それが通ったのでびっくりしました。期待に応えられていたら幸いです。組織の一人目SREとしてプロダクトに参画したとき、どのようにアプローチしますか？　をテーマにお話しました。「このチームの最初のSREとして、SRE組織を作ってくれないか」と言われたとき、あなたならどこからアプローチしますか？ SRE本に記載された多くのプラクティスのすべてをすぐに導入するのは容易くありません。なぜならSREの役割を果たせるのは現状あなたしかおらず、さらに通常、本に記載されている環境とは前提も異なるか

usadamasa 2022/05/15

sre

リンク

『ディアブロ II リザレクテッド』で起こっている不具合の原因説明/今後の恒久的な解決計画に関しまして

はじめにプレイヤーの皆様にはご不便をおかけしており大変申し訳ございません。皆様からお問い合わせを頂いております、現在起こっている複数の不具合に関しましての原因説明とこれまで実施した対処法に関しまして、そして今後どのように進めていくかの解決計画に関しましてご説明をさせていただきます。一部キャラクターの巻き戻り不具合の対応に関してサーバーの停止は単体での問題により発生しているものではないため、都度不具合が発生した際、緩和策の調査及び長期的な構造の組み換えの両面での問題解決に取り組んでいるのが現状でございます。一部のキャラクターに関しましてデータの巻き戻りが起こる現象が発生しておりましたが、今後はサーバークラッシュにより巻き戻りが起こってしまった場合、巻き戻りは数分程度分にとどまる予定でございます。ただこちらは根本的な解決策になっていないこと、開発チームの方でも重々理解しておりますので引

usadamasa 2021/10/19

sre

リンク

SREのためのMetrics-driven transformation(MDT) その1 - 赤帽エンジニアブログ

みなさんこんにちは、レッドハットでソリューションアーキテクトをしている暮林といいます。 SREのためのMetrics-driven transf ormation(MDT) というタイトルで数回の連載をしたいと思います。 Metrics-driven transf ormationとは？ Pelorusとは Pelorusのアーキテクチャー Pelorusのインストール次回予告 Metrics-driven transf ormationとは？聞き慣れない方が多いかと思いますがこちらに英語の短いビデオがあって説明されています。 www.redhat.com このビデオでは、Digital Transf ormationのためにDevOpsをするぞ！となっても、いざやってみると何をどうかえていけばわからないという問題に直面するよね、ということを述べた後に、では組織として計測するべきKPIは何でし

usadamasa 2021/09/16

sre

リンク

“止まらないシステム”ではなく“回復する能力”に価値がある　リアクティブシステムを実現するためのCQRSとEvent Sourcing

Chatwork に所属するエンジニアや外部ゲストなど、多分野のエキスパートたちの登壇を通して、エンジニア組織で取り組んでいる試みなどの知見を提供する「Chatwork Dev Day 」。ここで開発部テックリードの加藤氏が登壇。まずは、新アーキテクチャの設計思想でCQRS、Event Sourcingを採用した背景を紹介します。セッションのアジェンダ加藤潤一氏（以下、加藤）：それでは、私のセッションを始めたいと思います。アジェンダはこのようになっています。最初はリアクティブシステムと、それに関連してCQRS（Command Query Responsibility Segregation）とEvent Sourcingについて話したいと思います。アーキテクチャの刷新を計画していて、その新アーキテクチャの設計思想の中にこの2つの概念が関わってくるので、最初に話したいと思います。 CQR

usadamasa 2021/08/11

software
sre

リンク

高速な開発とデータ品質のトレードオフを超えるためにできること｜望月駿一 / Ubie Discovery

このnoteでは、事業立ち上げ期の高速な開発とデータ品質の間に発生するトレードオフに、限られたリソースで対処するために取り組んだ内容について紹介します。はじめまして。Ubie Discoveryで機械学習エンジニアをやっている望月(@smochi_pub)です。 Ubieに一人目のデータ人材として入社して、BI的なデータ整備・活用から予測アルゴリズムの開発まで幅広く担当してきました。 Ubieでは、アルゴリズムの検証や学習のために、初期からデータを貯めることを意識して取り組んできました。その過程で、高速にUIや仕様が変わっていくプロダクトを抱えつつ、データを「正しく」貯めることの難しさも体験してきました。高速な開発とデータ品質のトレードオフ開発チームは高速に検証を行うことにフォーカスしているため、UIや仕様もどんどん変わって行きます。実際にユビーでは、toC向けのAI受診相談ユビーでは

usadamasa 2021/07/29

> このやり方は、通知で終わらない仕組みを設計することが大事です。ネクストアクションが決まってない通知には意味がないです。

リンク

セキュリティガードレールを作って、非エンジニアに安心してGCPを提供できるようにした話 - MonotaRO Tech Blog

はじめまして、モノタロウでGCPの管理をしている吉本です。今回はモノタロウの社内全体でデータ基盤として使っているGCPをテーマに、大規模組織におけるクラウド運用の取り組みをお話します。データ民主化による現場主導のデータ活用クラウドの利用拡大に伴う課題 Cloud Asset Inventoryを利用したセキュリティガードレールの構築まとめデータ民主化による現場主導のデータ活用最近、データの活用・推進が様々な企業で実施されるようになってきました。特に2018年あたりからデータ民主化と呼ばれる、職種に問わず自らデータを集計・分析して意思決定をする文化が広まるようになった結果、非エンジニアがSQLを書く事例が増えています。*1 *2 モノタロウでも職種問わずデータドリブンな意思決定を推進しています。 2017年にデータ基盤をBigQueryに構築して以降、積極的にSQLなどの研修な

usadamasa 2021/07/06

gcp
sre

リンク

SLO、SLI、SLA について考える : CRE が現場で学んだこと | Google Cloud 公式ブログ

前回の『CRE が現場で学んだこと』シリーズでは、システムの可用性を担保するにあたってターゲットとする正確な数値をいかにして割り出すか、ということについてお話ししました。このターゲットをシステムのサービスレベル目標（SLO）と呼びます。今後、システムが十分な信頼性を保って稼働しているか、またシステムにどんな設計やアーキテクチャの変更が必要かについて議論する際は、システムが継続的に SLO を満たしているという枠の中で語る必要があります。 SLO の適合性は直接測定することが可能です。システムにおいて精査が成功した頻度で計るのです。これをサービスレベル指標（SLI）といいます。システムが過去 1 週間 SLO を満たしつつ稼働していたかどうかを評価する場合に、SLI からサービスの可用率を把握するのです。定められた SLO を下回っているとなれば問題があるということですから、他の場所に

usadamasa 2021/05/02

“ダウンタイムの最後に、担当者はフロントエンドを不適切に利用しているサービスのリストを受け取り、より適した場所にサービスを移動することをサービスの担当者と検討します。”

sre

リンク

インフラ構成ツールの「Pulumi 3.0」正式リリース。APIでPulumiを呼び出し可能、クラウドのアップデートに即時対応など

インフラ構成ツールの「Pulumi 3.0」正式リリース。APIでPulumiを呼び出し可能、クラウドのアップデートに即時対応などコードを用いてクラウドをはじめとするITインフラの構成を定義できる、いわゆるInfrastructure as Codeツールの「Pulumi」が、最新版となる「Pulumi 3.0」として正式リリースされました。 Announcing our new #CloudEngineering Platform (Pulumi 3.0)! Native providers with 100% API coverage Pulumi Packages to share #cloud components Automation API for programmatically deploying infrastructure from code Enterprise-g

usadamasa 2021/04/22

IasC
sre

リンク

AWSが運用ダッシュボードのベストプラクティスガイドを公開

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

usadamasa 2021/01/03

sre

リンク

データ基盤チーム0人で運用は回るのか？！前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ

技術部データ基盤グループの青木です。ここ1、2年はなぜか成り行きでBFFをでっちあげたり、成り行きでiOSアプリリニューアルのPMをしたりしていたのであまりデータ基盤の仕事をしていなかったのですが、今年は久しぶりに本業に戻れたのでその話をします。突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。間違いなく去年末は5人のチームだったと思うのですが、メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、なんと4月から1人だけのチームになってしまいました。事はそれで終わりません。恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0

usadamasa 2020/12/29

sre
etl

リンク

システム障害対応演習を実施した話｜NAVITIME_Tech

こんにちは、ネコ派メタラーです。ナビタイムジャパンで地点検索基盤の開発マネジメントを担当しています。好きなバンドは Arch Enemy です。システム運用に関わる人であれば、「システム障害」というと耳が痛い方が多いかと思います。システム障害は起こさないに越したことはないですが、万が一システム障害が発生したとき、その行動選択はサービスの信頼性を大きく左右することになります。迅速に復旧させることはもちろんですが、適切な情報公開によってユーザーの不安を払拭するといったコミュニケーションも重要なポイントです。しかし、緊急事態というプレッシャーを受けながら最適な行動を選択することは容易ではありません。私が所属しているチームでは、Web API サーバソフトウェアから全文検索ミドルウェアまで含めた開発・運用を行っており、幅広いトラブル対応スキルが必要になります。トラブル対応のスキルを持ったベテ

usadamasa 2020/11/18

sre

リンク

SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか？アラートの監視項目はどのように設定して、基準値をどのように決めていますか？社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。しかし現状のSLOはkinton

usadamasa 2020/11/13

sre

リンク

システム監視、何からはじめる？ / What is the first step for system monitoring?

2020/08/31開催の、Infra Study Meetup #5「企業に必要とされているインフラ技術とこれから」のLTでお話した内容です。 https://forkwell.connpass.com/event/183909/

usadamasa 2020/09/30

sre

リンク

権限をQray -SREへの一時的な本番環境権限付与のしくみ- | メルカリエンジニアリング

メルペイSREチームの @tjunです。この記事は、Merpay Tech Openness Month 2020 の19日目の記事です。今日は、メルペイSREチームのオペレーションのために開発して利用している Qray(クレイ) というツールの話をします。はじめにメルペイでは、Google Cloud Platform(以下GCP)を利用してサービスを構築し動かしています。 GCPには Cloud Identity and Access Management (IAM) という権限管理の仕組みがあります。IAMを適切に管理して、アカウントに最低限の権限を付与することがクラウドサービスを安全に利用するためには必要なことです。これはSREが持つ本番環境に対する権限についても同様で、できるだけ本番環境に対する権限を持たないようにしておきたいのですが、障害対応など本番環境でのオペレーション

usadamasa 2020/09/10

sre

リンク

Webサービスの障害対応のときの思考過程 - ぱいぱいにっき

起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったことがある人・ノウハウがある人に集中し、それ以外の人は眺めるだけ・あとからログを見返すだけの状態によく陥ることがあります。これはWebサービスを開発・運用するチームとしてみたときにそういった苦労が特定の人に集中するのは良くないので、それを緩和する目的として、筆者が障害対応時に考えていることを記述してみます。なお、これが唯一の正解ではないとは思っているので、ツッコミや、自分はこう考えているよというのを教えていただければ幸いです。具体的な手法を避けて思考の方法を述べているのは、障害というのはパター

usadamasa 2020/08/30

リンク

AWS システム構築非機能要件ヒアリングシートを公開してみた | DevelopersIO

こんにちは。ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きなネクストモード株式会社の吉井亮です。日本国内においても多くのシステムがクラウド上で稼働していることと思います。俊敏性、拡張性、従量課金、IaS、セキュリティなどクラウドのメリットを享受しやすい所謂 SoE で多くの実績があるように感じます。ここ1~2年は、社内基幹システム・情報システム、SoR 系のシステムのクラウド移行が本格化してきたというのが肌感覚であります。クラウドでのシステムインフラ構築は従来のようにゼロから非機能要件定義を行っていくものではなく、ベストプラクティスをまず実装して少しずつ微調整を行っていくものと考えています。とはいえ、システムごとの要件は予め明らかにしておくことがインフラ構築においても重要になります。クラウド上では出来ること出来ないこと

usadamasa 2020/08/24

リンク

Webアプリケーションのログに関するいくつかの考察 - Hatena Developer Blog

こんにちは、はてなでWebアプリケーションエンジニアをやっている id:polamjag です。最近のはてなでは、若手エンジニアを中心として、いろいろな技術を見つめ直すワーキンググループをやっています。先日、id:onk も「デプロイ今昔」という記事を書きましたが、このエントリーはそのシリーズの続きで、ワーキンググループの「ログ」の回で議論したこと・話題になったことをまとめました。 Web開発におけるログを見つめ直すログを4つの目的で分類する目的ごとに求められる取り扱いの要求水準いまどきのログフォーマットについてまとめ：どう実装するかを模索していく Web開発におけるログを見つめ直す Webサービス（Webアプリケーション）の運用には、多種多様なログがついてまわります。多くのミドルウェアは何もしなくてもそれなりの量のログを出力しますし、クラウド上のマネージドサービスも然りです。行