並び順

ブックマーク数

期間指定

  • から
  • まで

761 - 800 件 / 1089件

新着順 人気順

SREの検索結果761 - 800 件 / 1089件

  • 地道に積み上げるSRE 目的合意から進めたSREの探求と実践|グロービス・デジタル・プラットフォーム

    今回の記事では、SREとは何なのかについて根本から考えながら活動してきた、グロービス SREチームの探求と実践について紹介します。 はじめにグロービス・デジタル・プラットフォーム SREチームでチームリーダーを務めている沼田(@chroju)です。 突然ですがSREとはどう定義されるでしょうか。この問い、存外に難しいのではないかと感じています。インフラエンジニアは「インフラ領域を担当しているから」そう呼ばれますが、ではSREは「サイト信頼性を担当しているから」そう呼ばれるのでしょうか。サイト信頼性を担当する、とは、具体的にはどういうことなのでしょうか。 SREチームの業務内容や責任領域は広範囲に渡り、おそらく会社によって様々な形を取っているのではないかと思います。2021年9月に日本語版が発売された『SREの探求』は、まさにそういった様々なSREの実践をまとめた書籍であり、冒頭の「はじめに

      地道に積み上げるSRE 目的合意から進めたSREの探求と実践|グロービス・デジタル・プラットフォーム
    • ソフトウェア開発ライフサイクルに SRE という文化を Enabling していくためのアプローチ - freee Developers Hub

      こんにちは。freee の Enabling SRE チームに所属している nkgw (Twitter) です。 freee Developers Advent Calendar 2022 の 15 日目の記事となります。 普段は、エンジニアリングマネージャーをしつつ、新規プロダクトのリリースサポートとか、envoy の機能である external authorization の実装などをやってました。 以前 SRE チームのマネジャー 河村より 2022: freee SRE Journey - これまでの振り返りとこれから という記事にて今までの SRE チームの遍歴及び簡単な今後について書いていただきました。 本記事では freee の SRE の Rebuild として、どのようにプロダクトチームと一緒に SRE の Enabling(有効化) を進めていくのか、プロダクトチームが

        ソフトウェア開発ライフサイクルに SRE という文化を Enabling していくためのアプローチ - freee Developers Hub
      • Kubernetes、何をどうやって監視する? ~ 食べログにおけるオンプレKubernetes監視事例紹介 ~ - Tabelog Tech Blog

        目次 はじめに 食べログにおけるKubernetes化のモチベーションとその進み具合 Kubernetesというインフラにおける監視戦略 監視システムは作り込むのではなく買う あらゆるコンポーネントのゴールデンシグナルを観測する なるべく一箇所からあらゆるメトリクス/ログをクエリできるようにする メトリクスデータには決められたラベルを付与する 食べログにおけるKubernetes監視のwhatとhow 監視データの置き場 ログデータ置き場 メトリクスデータ置き場 監視している内容 ゴールデンシグナルの監視 容量監視 ロギング 監視ツールの監視 食べログにおける監視失敗事例 事例1: Pod総数爆増によるクラスタ全体のスローダウン 事例2: 同一DeploymentのPodが同時にevictされたことによるサイト閲覧障害 おわりに はじめに 食べログ 技術部 SREチームの下國 峰昌と申しま

          Kubernetes、何をどうやって監視する? ~ 食べログにおけるオンプレKubernetes監視事例紹介 ~ - Tabelog Tech Blog
        • Announcing HashiCorp Boundary

          Sign up for freeGet started in minutes with our cloud products TerraformInfrastructure as code provisioning​​​​‌‍​‍​‍‌‍‌​‍‌‍‍‌‌‍‌‌‍‍‌‌‍‍​‍​‍​‍‍​‍​‍‌‍‌​‌‍​‌‌‌​‌‍‌‍​‌‍‌‌​​‍‍‌‍​‌‍‌‍‌​‍​‍​‍​​‍​‍‌‍‍​‌​‍‌‍‌‌‌‍‌‍​‍​‍​‍‍​‍​‍‌‍‍​‌‌​‌‌​‌​​‌​​‍‍​‍​‍‌‍‍​‌‍​‌‌​‌‍‍​‌‍‍‌‌‍​‌‍‌​‍‌​​​‍‍‌‍​‌‌‍‌​‌‍‌‌‍‍‌‌‍‍​‍‍‌‍‌​‌‍​‌‌‌​‌‍‌‍​‌‍‌‌​​‍‍‌‍​‌‍‌‍‌​‍‌‍‌‌‌‍‌​‌‍‍‌‌‌​‌

            Announcing HashiCorp Boundary
          • Apache Kafkaのトラブルシューティングに見る、LINEが“根本的な”原因究明を大切にする理由

            Apache Kafkaのトラブルシューティングに見る、LINEが“根本的な”原因究明を大切にする理由 Reliability Engineering Behind The Most Trusted Kafka Platform #2/2 2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「Reliability Engineering Behind The Most Trusted Kafka Platform」に登壇したのはLINE Z

              Apache Kafkaのトラブルシューティングに見る、LINEが“根本的な”原因究明を大切にする理由
            • GitHub - upgundecha/howtheysre: A curated collection of publicly available resources on how technology and tech-savvy organizations around the world practice Site Reliability Engineering (SRE)

              How They SRE How They SRE is a curated knowledge repository of Site Reliability Engineering (SRE) best practices, tools, techniques, and culture adopted by leading technology or tech-savvy organizations. Numerous organizations frequently share their insights and expertise, encompassing best practices, tools, and techniques that shape their engineering culture. They do this through various public p

                GitHub - upgundecha/howtheysre: A curated collection of publicly available resources on how technology and tech-savvy organizations around the world practice Site Reliability Engineering (SRE)
              • オブザーバビリティ再入門 - 大切さと高め方を知ろう!を開催しました! - Mackerel ブログ #mackerelio

                こんにちは! Mackerel CREチームでカスタマーサクセスマネージャー(CSM)をやっているid:chizniiです。 2024年6月5日(水)に「オブザーバビリティ再入門 - 大切さと高め方を知ろう!」をはてな 東京オフィスにて開催しました。本記事ではイベントのレポートを行いつつ、発表資料や配信動画のアーカイブを掲載いたします。 オブザーバビリティ再入門 - 大切さと高め方を知ろう! オブザーバビリティ再入門 - 大切さと高め方を知ろう!とは 今回もイベントのライブ配信を行いました コミュニケーションを促進するための仕組みとして名札を用意 盛りだくさんのトーク内容 可観測性ガイダンス by @nwiizoさん メトリクス、ログ、トレースをうまく使い分けて可観測性を高めよう! by id:masayoshi OpenTelemetry デモを使って Mackerel のメトリック探索

                  オブザーバビリティ再入門 - 大切さと高め方を知ろう!を開催しました! - Mackerel ブログ #mackerelio
                • OpenSLO

                  What is OpenSLO?OpenSLO is a service level objective (SLO) language that declaratively defines reliability and performance targets using a simple YAML specification. It is released under Apache 2.0 and we welcome contributions from the reliability engineering ecosystem. SLOs are reliability targets for services that allow organizations to make better decisions in how to create, operate, and run cl

                  • 【Meetup】急成長SaaSの生産性向上戦略/オフショア、SRE、属人化対策 - RAKUS Developers Blog | ラクス エンジニアブログ

                    技術広報のyayawowoです。 いつもラクスのエンジニアブログをお読みいただき、ありがとうございます! 今回は、11月に開催した【ラクスMeetup】急成長SaaSの生産性向上戦略/オフショア、SRE、属人化対策の発表内容について紹介させていただきます! 本イベントには、当社の中でも特に大型開発の楽楽精算を担当している、開発最前線のエンジニアが2名が登壇しました。 SaaS開発に携わる方のご参考になれば幸いです! イベントの詳細は以下をご確認ください。 ・急成長SaaSの生産性向上戦略/オフショア、SRE、属人化対策 - connpass 発表の紹介 楽楽精算のリリースプロセス最適化 多拠点開発の生産性を飛躍的に向上させるプロジェクト管理手法 おわりに 発表の紹介 それではここから各発表内容と資料を共有させていただきます! 楽楽精算のリリースプロセス最適化 登壇:根井 達規 [担当サービ

                      【Meetup】急成長SaaSの生産性向上戦略/オフショア、SRE、属人化対策 - RAKUS Developers Blog | ラクス エンジニアブログ
                    • 「SRE NEXT 2022」にSREチームの藤原が登壇します - KAYAC engineers' blog

                      SREチームの長田です。 5/14(土)・5/15(日)に開催される「SRE NEXT 2022」にカヤックSREチームの藤原が登壇します。 sre-next.dev 「1年間のポストモーテム運用と、そこから生まれたツールsre-advisor」というタイトルでポストモーテムの運用と、 そこから生まれたツールについて紹介させていただきます。 sre-next.dev カヤックではSREが関わっている社内の複数プロダクトで、ポストモーテムを2020年末から運用してきました。 社内には多数のプロダクトがあるため、エンジニアは自分が関わっているもの以外の事故や事例に疎くなりがちでした。ポストモーテムの運用を通して、それがどう変わっていったかを紹介します。 ポストモーテムからは、普段は問題なく動いていても高負荷時や長期間の運用で問題になる、インフラやミドルウェアの設定が要因として見つかることもあり

                        「SRE NEXT 2022」にSREチームの藤原が登壇します - KAYAC engineers' blog
                      • DevOps Roadmap: Learn to become a DevOps Engineer or SRE

                        DevOps is a cultural and collaborative mindset that emphasizes communication, collaboration, integration, and automation between development and operations teams in order to achieve faster and more reliable software delivery. DevOps is not a specific job title or role, but rather a set of practices and principles that can be applied across a variety of roles in software development and IT operatio

                          DevOps Roadmap: Learn to become a DevOps Engineer or SRE
                        • トイルとは|CAMPFIRE 開発チーム

                          トイル(Toil)とは直訳すれば「労苦」であり、プロダクションサービスを動作させることに関する作業で、手作業で繰り返し行われ、自動化することが可能であり、戦術的で長期的な価値を持たず、作業量がサービスの成長に比例するといった傾向を持つものを指す。SREにおける重要な概念の一つであり、SREは日常的にトイルに対応しつつも、最低50%以上はエンジニアリングに当てるべきであるとされる。 トイルの定義SREにおけるトイルは運用タスクを指すことが多いが、単純に「運用」や「やりたくない仕事」に置き換えられるものではない。一般的にトイルは以下の特徴を持つ。 ・手作業であること 自動化されていない多くの仕事。スクリプトの実行を手作業で行う場合も含む。 ・繰り返されること トイルとは繰り返し行われる作業を指す。ある作業をするのが初めてだったり、新しい解決策を生み出しているのであればそれはトイルではない。 ・

                            トイルとは|CAMPFIRE 開発チーム
                          • https://sre.google/static/pdf/jp-enterprise-roadmap-to-sre.pdf

                            • ALB TargetGroup を切り替えて S3 上の静的ページを表示する(HaMaMo! ハマスタモバイルオーダーの事例)[DeNA インフラ SRE] | BLOG - DeNA Engineering

                              2023.12.15 技術記事 ALB TargetGroup を切り替えて S3 上の静的ページを表示する(HaMaMo! ハマスタモバイルオーダーの事例)[DeNA インフラ SRE] by yuto.ota #ydb #hamamo #aws #infrastructure はじめに こんにちは,IT 本部 IT 基盤部第一グループの大田です. IT 基盤部では,DeNA のグループ子会社等も含めて横断的に複数のサービスのインフラ運用を行っています. 今回は,横浜DeNAベイスターズ(以下,YDB)の HaMaMo! というサービスについて,IT 基盤部が関わっているインフラ部分の構成について一部ご紹介します. HaMaMo! とは HaMaMo!(ハマスタモバイルオーダー)は、 ハマスタオリジナルフードを、スマホでオーダーして、完成通知を受信後に、 受け取りに行くだけの便利なオーダ

                                ALB TargetGroup を切り替えて S3 上の静的ページを表示する(HaMaMo! ハマスタモバイルオーダーの事例)[DeNA インフラ SRE] | BLOG - DeNA Engineering
                              • 2023 State of DevOps Report  |  Google Cloud

                                Stay organized with collections Save and categorize content based on your preferences. For the last nine years, we've produced the Accelerate State of DevOps report, hearing from over 36,000 professionals worldwide. We've outlined the DevOps practices that drive successful software delivery and operational performance, with a deep focus on user-centric design in the 2023 report. Use these findings

                                  2023 State of DevOps Report  |  Google Cloud
                                • 手動作成AWSリソースをIaC化するモブプロ「cdk import day」を定期開催している話 - Uzabase for Engineers

                                  はじめに 「私…全ての手動作成AWSリソースを生まれる前に消し去りたい。全ての宇宙、過去と未来の全ての手動作成AWSリソースを…この手で!」 そんなことを思われた経験はないでしょうか?私は常に思っています。 こんにちは。ソーシャル経済メディア「NewsPicks」のSREチームの安藤です。 先日の JAWS-UG CDK支部 #14 にて、テーマが「IaC Generator祭り」だったこともあり、以下のタイトルでLT発表させていただきました。 www.docswell.com 上記の発表はAWS CDKのコミュニティのライトニングトークということもあり簡単なTIPS紹介が中心だったので、本記事では改めて背景と概要について紹介します。 背景 NewsPicksというサービスは10年以上の歴史があり、サービス開始当初からAWSを利用していました。 現在は、Infrastructure as

                                    手動作成AWSリソースをIaC化するモブプロ「cdk import day」を定期開催している話 - Uzabase for Engineers
                                  • 2022年の振り返りとこれから - やんばるテック

                                    2022年の1年間での出来事やアウトプットを振り返ります。 目次 目次 転職した 一人目SREとして コーポレートエンジニアと全社セキュリティ担当として OSS等の他のリポジトリにコントリビュート 技術記事10本 会社 個人 登壇3回 JAWS-UG SRE支部 AWS Startup Community オフラインイベント等の機会を利用して多くの人と出会った JAWS DAYS 2022 Startup CTO of the year 2022 社外エンジニアとの飲み会や1on1 コミュニティ活動 AWS認定DevOpsエンジニア プロフェッショナルに合格した 最後に 転職した 今年転職し、スマートラウンドというスタートアップの一人目SREとして働き始めました。 なぜ転職したのかの経緯などの詳細は以下の記事にまとめてあります。 一人目SREとして 入社後は一人目SREとして様々な取り組み

                                      2022年の振り返りとこれから - やんばるテック
                                    • SRE NEXT 2020 で「SLO Review」というタイトルで登壇しました #srenext - スタディサプリ Product Team Blog

                                      こんにちは。SRE の @chaspy です。 先日行われた SRE NEXT 2020 にて、SLO Review というタイトルで発表してきました。 本記事では、会場に来られた方には内容を追体験してもらえるように、来られなかった方には伝えたかった内容を持ち帰っていただけるように解説します。 来場者への質問 本セッションを聴きに来られている会場の方に、SLO に関する質問をしました。 会場への質問 SLO という言葉の意味を知っているひと:9割以上、ほとんど全員 自分のサービスに SLO を定めて運用をしているひと:2割程度 Error Budget Policy を定めて、SLO 違反になった際にリリースを止めるなどをしているひと:2,3人 事前に予想した通りの比率でした。まさに僕の発表は 1 を満たしているが、2をこれからやる、というひとに対するヒントを提供する発表だったからです。

                                        SRE NEXT 2020 で「SLO Review」というタイトルで登壇しました #srenext - スタディサプリ Product Team Blog
                                      • 【登壇】YAPC::Kyoto 2023で障害対応について登壇してきた #yapcjapan - 地方エンジニアの学習日記

                                        yapcjapan.org YAPC::Kyoto 2023で登壇してきました!これまでオフラインイベントで登壇といえば少人数でのイベントくらいでこの規模で話すのは初だったので緊張してましたが始まってしまえばとても楽しめて話せてとても良い機会になりました!ありがとうございます!ほぼ満席(多分)で発表後の質問やTwitterでも反響があってとても嬉しかったです。トレーニングなどのコスト周りの内容はもう少し補足が必要だったなと思ったのでブログなり資料修正をして追記しようかなと思います。 speakerdeck.com セッションもとても刺さるものが多くて学びや今後のやる気に繋がるものが多くてよかったです。(詳細については会社のテックブログに記載しようかなと思います。)。懇親会ではネットの向こう側だった方と多く話す機会を得ることができ場を作って頂いたHelpfeelさんにはとても感謝です。 その

                                          【登壇】YAPC::Kyoto 2023で障害対応について登壇してきた #yapcjapan - 地方エンジニアの学習日記
                                        • どうやってうまくいっているのか?Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より

                                          Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

                                            どうやってうまくいっているのか?Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より
                                          • Golden paths for engineering execution consistency | Google Cloud Blog

                                            Light the way ahead: Platform Engineering, Golden Paths, and the power of self-service Imagine that you're a Java developer who has just joined a new company, and you're tasked with creating a small Java service. In a DevOps model, the shared responsibility between Development and Operations teams might mean that you'll not only be expected to write Java code, but also operations code like build p

                                              Golden paths for engineering execution consistency | Google Cloud Blog
                                            • 「SRE NEXT 2020」にdelyが協賛&登壇しました! - dely Tech Blog

                                              こんにちは。delyのSREの井上です。 delyは先日開催されたSRE NEXT 2020にGOLDスポンサーとして協賛をさせていただきました!当日はセッション枠を頂き、「delyにおける安定性とアジリティ両立に向けたアプローチ」をテーマに発表もさせていただきました。 セッションでは、 前半:SRE本に則った理論の話 SREはプロダクト開発の速度を安全に高めるために存在しているということ プロダクト開発の速度を安全に高めるためには単純さを追求することが重要であること 後半:前半の理論に則ったdelyでの実践の話 をしました。スライドは公開済みですが、それだけだと伝わりにくい内容も含めてブログにも投稿させていただきます。 当日は多くの方が参加されていました! SRE NEXTに参加してみて SRE Loungeの勉強会は#5以降の会は全て参加させて頂いているのですが、いつも有意義な情報が得

                                                「SRE NEXT 2020」にdelyが協賛&登壇しました! - dely Tech Blog
                                              • Blue / Green デプロイと安全性と複雑性と #AWSDevDay

                                                Talked at AWS Dev Day Japan 2022.

                                                  Blue / Green デプロイと安全性と複雑性と #AWSDevDay
                                                • Building On-Call Culture at GitHub

                                                  EngineeringBuilding On-Call Culture at GitHubGitHub’s engineering group moved from a monolithic, hero-based on-call rotation to a more balanced on-call culture in order to increase our on-call expertise and improve the experience for our customers. As GitHub grows in size and our product offerings grow in number and complexity, we need to constantly evolve our on-call strategy so we can continue t

                                                    Building On-Call Culture at GitHub
                                                  • Incident Metrics in SRE - Google - Site Reliability Engineering

                                                    Incident Metrics in SRE - Google - Site Reliability Engineering Measuring improvements as a result of a process change, product purchase, or a technological change is commonplace. In reliability engineering, statistics such as mean time to recovery (MTTR) or mean time to mitigation (MTTM) are often measured. These statistics are sometimes used to evaluate improvements, or track trends. In this rep

                                                    • SRE Lounge #17 イベントレポートと SRE NEXT 2024 アンドパッドブースのご案内 - ANDPAD Tech Blog

                                                      こんにちは。SREチームの吉澤です。 7/2(火)に開催されたSRE Lounge #17の会場として、秋葉原のアンドパッド本社の9Fにあるイベントスペース「ANDPADコミュニティ」と懇親会用の飲食物を提供させていただきました! 設営直後の会場の様子 面白い発表が多いイベントでしたので、今回はこのSRE Lounge #17のイベントレポートをお送りします。また記事の最後に、8/3(土)〜4(日)に開催されるSRE NEXT 2024でのアンドパッドブースも軽くご紹介します。 SRE Lounge #17のアーカイブ配信 アンドパッドのスポンサーセッション Xで頂いた質問 各セッションの紹介と感想 飲食店のインフラサービス “ダイニー” のトラブル対応のすべて(dinii, inc. 唐澤さん) WAFでどのリクエストがBlockされたのか、ログを集計してSlackで簡単に見れるようにし

                                                        SRE Lounge #17 イベントレポートと SRE NEXT 2024 アンドパッドブースのご案内 - ANDPAD Tech Blog
                                                      • SRE NEXT 2023を開催します - SRE NEXT Staff Blog

                                                        SRE NEXT Logo はじめに SRE NEXTとは なぜSRE NEXT 2023を開催するのか Interactivity Diversity Empathy SRE NEXT 2023をどんなカンファレンスにしたいか 終わりに はじめに こんにちは!SRE NEXT 2023 Chair の gr1m0h(ぐりもお) です。SRE NEXT 2022では、チケットや動画管理周りを担当していました。 先日、SRE NEXT公式Twitterアカウント にてSRE NEXT 2023の日程を 9月29日(金) と発表しました! 会場は 九段会館テラス コンファレンス&バンケット です!ハイブリッド開催となるので、現地で参加の方もオンラインで参加の方も大いに楽しみましょう!! また、スポンサー募集要項についても公開しました! 6月14日(水)11:00 からスポンサー募集を開始します

                                                          SRE NEXT 2023を開催します - SRE NEXT Staff Blog
                                                        • Feature Toggleについて整理してみました - SRE兼スクラムマスターのブログ

                                                          はじめに みなさんの現場はデリバリーチームとオンコールチームに分かれていますでしょうか? 分かれている現場ではリリースのタイミングは調整が出来ていますか? 我々のチームはデリバリーチームとオンコールチームに分かれているのですが、テスト環境などの関係上 リリースのタイミングの調整に時間がかかりがちで、そのたびにmaster branchのコンフリクトに悩まされてしまったり merge待ちなどが発生してデリバリーのリードタイムが伸びてしまうことがあります。 そこで今回は本番コードに潜在的にプロダクトのコードを埋め込んでも 影響が出ない仕組みが実現できる「Feature Toggles」について調べてみたので整理してみようと思います。 ※この記事ではFeature Togglesの具体的な実装については記載しません Feature Togglesとは Feature Togglesは別名:Fea

                                                            Feature Toggleについて整理してみました - SRE兼スクラムマスターのブログ
                                                          • クラウド、コンテナ、マイクロサービスに求められる新たな運用管理方法とは? - ホワイトペーパー [DevOps/DevSecOps]

                                                            コンテナ化されたアプリケーションの複雑さを解消するとして定評を得ているKubernetes。サービスを検出し、負荷分散を組み込み、リソースの健全性をチェックする他、コンテナを自動的に再起動しアプリケーションの自己修復を可能にするなど、多くの強みを持つ。その一方で、運用と可観測性においては、課題ももたらす。 Kubernetesによりアプリケーションのデプロイ/スケーリング/管理は簡素化されるが、インストールや構成、管理は複雑化する。またリカバリーが“機能しすぎる”ことにより、問題発生時に根本原因を探せなくなることもある。これらを回避するには、SRE(Site Reliability Engineer)と開発者の双方が、アプリケーションとそれが実行されるKubernetes環境との“依存関係”を理解する必要がある。 そこで活用したいのが、モダンアプリケーションの監視/可観測性/分析が必要な企

                                                              クラウド、コンテナ、マイクロサービスに求められる新たな運用管理方法とは? - ホワイトペーパー [DevOps/DevSecOps]
                                                            • CRE のおしごと - Link and Motivation Developers' Blog

                                                              はじめまして、CRE グループの宮崎です。 …はい、わかってますよ?この業界特有のよくわからない略語が出てきましたよね?(ご存じだったらごめんなさい) まずはこの略語の説明をさせていただきつつ、私たちがどんなミッションを追っているのかを少しご紹介したいなと思います。 そもそもCRE とは? 「CRE」とはCustomer Reliability Engineering(顧客信頼性エンジニアリング)の略語です。 一言で表現をすると「エンジニアとテクニカルサポートとカスタマーサクセスのハイブリッド」です。 まだ日本国内だと「知る人ぞ知る」役割になっているかなと思うのですが、既にメルカリさんやはてなさんでは CRE が存在しています。 日本でその存在が(おそらく)一番最初に紹介されたのは以下の GCP の日本公式ブログです。 https://cloudplatform-jp.googleblog

                                                                CRE のおしごと - Link and Motivation Developers' Blog
                                                              • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

                                                                DevOpsの導入によって、開発エンジニアがサービスの信頼性と可用性に対する責任を負い、オンコール対応に携わるようになりました。オンコールは重要な職務ですが、精神的な負荷が大きいため不安を感じる方も多く、いわゆる「燃え尽き症候群」に陥る方も生じます。 そこで今回は、PagerDutyコミュニティのメンバーから寄せられた、オンコール対応の不安を取り除く方法や、オンコールローテーションに臨む際のアドバイスをご紹介します。ぜひ、今後の参考にしてください! インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧

                                                                  オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
                                                                • SRE NEXT 2023参加レポート - 生涯未熟

                                                                  SRE NEXT 2023に登壇者として参加させていただきました! 大きな舞台で貴重な経験をさせていただいたので、色々と記録に残すためにレポートを書きます。 私とSRE NEXT SRE NEXTの存在を知ったのはちょうど私がSREを始めて1年経たないくらいの時で、「こんな大きなカンファレンスがあったのか!」と驚きました。 即参加を決めてオンライン視聴しましたが、イベント自体めちゃくちゃ気合いが入っててすげーすげー!言ってました。で、肝心のセッションも弊社の清水さんの発表など非常に胸に刺さるものが多く、特にVTRyoさんの「一人から始めるプロダクトSRE」が今の自分の状況と同じで物凄く感銘を受けたのを覚えています。 youtu.be そこから、「いつかこんな大きな舞台に立てたら嬉しいな〜頑張らないとな〜」と薄っすらですが考えるようになりました。 SRE NEXT 2023開催! ずっと薄っ

                                                                    SRE NEXT 2023参加レポート - 生涯未熟
                                                                  • Clutch · An extensible platform for infrastructure management. | Clutch · An extensible platform for infrastructure management.

                                                                    Shifting infrastructure management to a friendlier place.Clutch provides everything you need to improve your developers' experience and operational capabilities. It comes with several out-of-the-box features for managing cloud-native infrastructure, but is easily configured or extended to interact with whatever you run, wherever you run it.

                                                                      Clutch · An extensible platform for infrastructure management. | Clutch · An extensible platform for infrastructure management.
                                                                    • The ETTO Principle(効率-徹底性トレードオフ原則)とITシステムの運用

                                                                      こんにちは、滝澤です。 今回は"The ETTO Principle"(効率-徹底性トレードオフ原則)について紹介します。ここでは「ETTO原則」と呼ぶことにしましょう。 ETTO原則はレジリエンス・エンジニアリングで著名なエリック・ホルナゲル氏(Erik Hollnagel)が提唱したもので、効率性(Efficiency)と徹底性(Thoroughness)はトレードオフの関係にあるというものです。 これは、元々は安全に関する分野での話ではあるのですが、IT分野においても無縁というわけではありません。そのあたりの話を紹介します。 本記事を3行でまとめると次のようになります。 ETTO原則により効率性と徹底性はトレードオフの関係にある。 ITシステムの運用の例として作業手順書作成の例を示し、効率性と徹底性のバランスを考える必要があることを示した。 システム障害と根本原因分析について紹介し、

                                                                      • 巨大な .circleci/config.yml を分割した話 - スタディサプリ Product Team Blog

                                                                        こんにちは。 SRE の @suzuki-shunsuke です。 6000 行を超える巨大な .circleci/config.yml を分割してメンテナンス性を改善した話を紹介します。 背景 我々 SRE は日々 Developer Productivity の改善に取り組んでいます。 その取り組みの一環で Developer の方から直接フィードバックをもらう機会がありました。 その中で Monorepo の .circleci/config.yml が大きすぎて修正するのが大変という意見をもらいました。 弊社では様々なサービスを一つのリポジトリで管理する Monorepo というアーキテクチャを採用しており、 CircleCI で全てのサービスのテストやビルド・デプロイなどを行っています。 それ故に .circleci/config.yml は 6000 行を超えるものになっており

                                                                          巨大な .circleci/config.yml を分割した話 - スタディサプリ Product Team Blog
                                                                        • クックパッドの海外展開におけるSREの役割と挑戦

                                                                          2019年2月27日、恵比寿ガーデンプレイスザ・ガーデンホールにて、「Cookpad TechConf 2019」が開催されました。Cookpadのエンジニアやデザイナーがどのようにサービス開発に取り組んでいるのか、またその過程で得た技術的知見について公開します。プレゼンテーション「Challenges for Global Service from a Perspective of SRE 2nd season」に登壇したのは、クックパッド株式会社技術部SREグループエンジニアの渡辺喬之氏。講演資料はこちら クックパッドSREが語るグローバルサービスへの挑戦 渡辺喬之氏(以下、渡辺):それでは発表をはじめます。よろしくお願いします。今日の発表内容ですが、まずクックパッドの海外展開について、ご存じない方がいらっしゃると思いますので、ご紹介いたします。その後、クックパッドにおけるSREの役割

                                                                            クックパッドの海外展開におけるSREの役割と挑戦
                                                                          • 流浪の○○テックの果てのリーガルテック 〜あるエンジニアのMNTSQ入社エントリ〜 | MNTSQ, Ltd.

                                                                            10月1日からMNTSQに入社して1ヶ月半が経ちました。 そういえば、このエントリが公開された翌日は、MNTSQの設立2周年の日だそうですよ。 ○○テックを渡り歩いて新卒で就職して今まで、「ITの力をIT以外の世界へ提供させること」と「自分たちが作っているその製品やサービスを、自分たちで直接顧客に届け続けること」の二つを両立できる仕事に就きたいなと考えて生きてきました。幸せなことに、おおかたそういった仕事に就いて仕事をしてきたことが多い人生のように思います。私が新卒の頃には、まだX-Techと言われる言葉はなかった(または浸透していなかった)と記憶していますが、振り返ればそういう世界観に近い感覚で生きてきたのかなと思います。 それぞれ濃淡はありますが、エンジニアとして、不動産テック、アグリテック、フィンテック、業務外のコミュニティ活動としてシビックテックに参画してきました。 そして今回、リ

                                                                              流浪の○○テックの果てのリーガルテック 〜あるエンジニアのMNTSQ入社エントリ〜 | MNTSQ, Ltd.
                                                                            • 横断的なSRE推進と成熟度評価

                                                                              少数チームで挑む: SwiftUI, TCA, KMPを用いた 新規動画配信アプリ 「ABEMA Live」の開発について

                                                                                横断的なSRE推進と成熟度評価
                                                                              • incident.io — Smarter incidents from start to finish

                                                                                From the first alert to the final follow-up, incident.io integrates on-call, incident response, and status pages into one powerful incident management platform.

                                                                                  incident.io — Smarter incidents from start to finish
                                                                                • Google - Site Reliability Engineering

                                                                                  If you’re rolling out a large-scale infrastructure change, you know it can be like swapping out a jet engine while flying. Staying aloft takes coordination and communication with many teams, good processes and documentation, risk identification and management, monitoring, and tracking of the change progress—not to mention dealing with the catastrophic challenges that crop up midflight. In this rep