並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 641件

新着順 人気順

SREの検索結果321 - 360 件 / 641件

  • 【イベント】Road to SRE NEXT@京都をやってきた - 地方エンジニアの学習日記

    sre-lounge.connpass.com 7/5(金)にSRE NEXTのスタッフとして京都でやってきました! 久々の京都 YAPC::Kyoto 2023ぶりの京都でした。あの時は春先でしたが判断ミスで半ズボンで行ってしまい寒くて仕方なかったという感じでしたが今回は暑くてやばい!という感じでした。新幹線を降りた瞬間から感じるモワッとした感がすごかったです。気温を見たら35度とか表示されていて仙台は24度とかで過ごしやすいなぁと朝思って出たらこんな感じだったのでやばかったです(語彙力) Road to SRE NEXTとは blog.sre-next.dev セッション speakerdeck.com ソーシャルゲームとSREの話。自分は関わったことのない分野だったので面白く聞けました。出ては撤退していく分野にも見えている中で撤退期のSLI/SLOの話なんかにフォーカスした話を聞きた

      【イベント】Road to SRE NEXT@京都をやってきた - 地方エンジニアの学習日記
    • ペパボSREの道具箱 - Pepabo Tech Portal

      技術部プラットフォームグループ SRE の akichan です。 私が所属する技術部プラットフォームグループは SUZURI や minne といったサービスごとにある事業部に所属しないサービス横断のSREの集団です。運用の効率化、サービスレベル目標を達成できるようにするための支援を行っています。 今回はペパボのSREが普段利用している便利なツールの紹介を通し、具体的な業務の内容について知っていただこうと思います。 Kubernetes関連 SRE は各サービス事業部のKubernetesクラスタの管理者でもあります。 日常的なクラスタの維持管理や、トラブルシュートに対応します。 stern sternは複数のPodのログをまとめて見ることができるツールです。 kubectl logsを使ってPodのログをみる場合、Podの正確な名前を指定する必要があり手間です。 sternはPod名の

        ペパボSREの道具箱 - Pepabo Tech Portal
      • メディアドゥにもSREチームができました! - Tech Do | メディアドゥの技術ブログ

        Launch of SRE Team こんにちは、SREチームの三森(共同執筆:小川)です。 前期からメディアドゥにもSREチームができましたので本日はその紹介をさせていただきます! SREとは SLI(サービスレベル指標)とは SLO(サービスレベル目標)とは エラーバジェットとは メディアドゥSREチームの取り組み 現状のメディアドゥの課題 こうやっていく! さいごに SREとは Googleで培われたシステム管理とサービス運用の方法論で、Site Reliability Engineering(サイト信頼性エンジニアリング)の略です。 そしてSREチームは、サイトやサービスの信頼性向上に向けて様々な取り組みを行っていきます。 詳細はSRE本が出ているので是非読んでみてください! (英語版は公開されています!) landing.google.com サイトの信頼性は SLI / SLO

          メディアドゥにもSREチームができました! - Tech Do | メディアドゥの技術ブログ 
        • Open source update: School of SRE

          Site up and secure is a fundamental element of how we operate, and site reliability engineers (SREs) play a critical role in fulfilling that responsibility. Talent has always been the number one operating priority, and over the last few years, we’ve been running multiple programs to identify, hire, and develop talented SREs, including those without an SRE background. On this journey, we made a few

            Open source update: School of SRE
          • [レポート] SRE の基本と組織への導入 〜サービスレベル目標やエラー予算などサービスの信頼性に対する考え方〜 #GoogleCloudDay | DevelopersIO

            [レポート] SRE の基本と組織への導入 〜サービスレベル目標やエラー予算などサービスの信頼性に対する考え方〜 #GoogleCloudDay Google Cloud Day: Digital '21 で公開された標題のセッションをレポートします。「SLOはどう定めるべきか」といった SRE の基本・考え方から、心理安全性をベースにどう組織に展開するかまで、まるっと押さえられる素晴らしい実践的セッションです。 TL;DR Googleでは4分間システムを止めるとボーナスが貰える(語弊) 原則 「信頼性は最も重要な機能」「信頼性を決めるはユーザー」「99.999%はソフトウェアだけでも運用だけでも達成出来ない」 人間の脳はリスク分析を正しく行えない。ではどうするか? class SRE implements DevOps {} 5/25〜27の日程で行われたオンラインイベント、Googl

              [レポート] SRE の基本と組織への導入 〜サービスレベル目標やエラー予算などサービスの信頼性に対する考え方〜 #GoogleCloudDay | DevelopersIO
            • SREを自社に導入するためのプラクティス

              印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます はじめに 前回の記事では、Site Reliability Engineering(SRE)がシステム運用にもたらす利益についてご紹介しました。結論としては、「システムの信頼性の担保」と「開発効率の向上」という対極にある2つの要素を成立させるというものでした。 第2回となる本記事では、企業ごとに組織の体制や文化が異なる中で、どのような目的・意図を持って進めていけば、この対極にある要素を両立させたSREの導入につなげられるかのプラクティスについてご紹介します。 SRE導入はある程度の時間を要する 前述の通りSREの目的は、「システムの信頼性の担保」と「開発効率の向上」という2つの要素を両立させることです。 アプローチ方法としては、ソフトウ

                SREを自社に導入するためのプラクティス
              • SRE NEXT2024 登壇&体験記 その2 - エムスリーテックブログ

                AI・機械学習チームの北川(@kitagry)です。 この記事はAI・機械学習チームブログリレーの記事です。 8/3,4の2日間、SRE NEXT 2024で登壇させていただきました。 こちらで自分の登壇の話しと印象に残ったセッションなどの参加レポートとして紹介します。 また、弊社の後藤もレポートを書いているので良ければこちらもご参照ください。 www.m3tech.blog SRE NEXT登壇の様子 Photo by SRE NEXT Staff SRE NEXTについて 自分の登壇について 印象に残ったセッション 工学としてのSRE再訪 DevSecOpsの内回りと外回りで考える持続可能なセキュリティ対策 宇宙科学研究所の探査機運用システムにおけるSREのプラクティス導入と月着陸実証機SLIMでの利用 こうしておけばよかったなと思ったTIPS まとめ We are Hiring! S

                  SRE NEXT2024 登壇&体験記 その2 - エムスリーテックブログ
                • 80万口座を取り扱う巨大システム LINE証券のSREが関わる基盤

                  LINEユーザーとビジネスの価値をつなぐためのSREとは、いったいどんなことをするのか。LINEの7つの領域から9名が登壇し、業務内容や体制、開発における課題、働く個々人のやりがいなどについて話します。龍本悠平氏は、LINE証券のSREについて紹介しました。 LINE証券のSRE 龍本悠平氏:では、LINE証券のSREについて紹介いたします。 まず本日紹介する内容ですが、この5つ話題について、お話ししたいと思います。まず、最初は自己紹介します。そのあと、LINE証券の事業について紹介をしたいと思います。次に、LINE証券で実際にSREがどのような役割を持っているのかについてお話しいたします。 また、現在のLINE証券では、どういう技術を使ってサービスを実現しているのかとか、どういうプラットフォームを運用しているのかについてお話しします。最後に、実際にLINE証券のSREとして日々どういう業

                    80万口座を取り扱う巨大システム LINE証券のSREが関わる基盤
                  • SREの実践、SLI/SLO策定までの道のり - Qiita

                    この記事はエイチーム引越し侍/エイチームコネクトの社員による、Ateam Hikkoshi samurai Inc.× Ateam Connect Inc. Advent Calendar 2021 8日目の記事です。 8日目は、エイチームグループ内でもレアキャラなインフラエンジニアの @sugoto911 が担当します。 趣味はカメラ、登山、キャンプです! 今年も雪が多いようなので、これからの季節はスキーを楽しみたい所存です。 来世は長野県松本市在住の山ガール予定なので、生暖かい目で見守っていただけると嬉しいです 仕事では**「推測するな、計測せよ」**をモットーに、日々インフラの管理や監視、Observabilityの整備を行っています。 はじめに 私がSREという方法論に出会ったのは、まだエイチーム引越し侍に入社前の2018年頃です。 当時はそもそも「信頼性とはなんぞ・・・?」という

                      SREの実践、SLI/SLO策定までの道のり - Qiita
                    • Embedded SRE at Mercari

                      This is a slide for SRE NEXT 2022 https://sre-next.dev/2022/

                        Embedded SRE at Mercari
                      • SRE NEXT 2020 参加レポート - CARTA TECH BLOG

                        はじめに こんにちは。fluct でSREをしている村田です。 2020/1/25 (土) に豊洲フロントで開催された SRE NEXT 2020 に参加してきましたので、皆様にご報告していきたいと思います! sre-next.dev SRE NEXTは日本で初めてのSREをテーマとしたカンファレンスで、弊社もゴールドスポンサーとして参加させていただいており、当日はfluctのSREチームメンバー数名で参加させていただきました。 スポンサーセッションでは fluct SREチームのみっさんが 成長を続ける広告配信プラットフォームのモニタリングを改善してきた話 というタイトルで発表を行いました。 speakerdeck.com 印象深かったセッションなど ここでは特に印象深かったセッション(など)についてまとめていきます。 早期来場者特典の特別ヨガプログラム これはセッションではないのですが

                          SRE NEXT 2020 参加レポート - CARTA TECH BLOG
                        • SRE とは| Red Hat

                          SRE (Site Reliability Engineering:サイト信頼性エンジニアリング) は、IT 運用におけるソフトウェア・エンジニアリング・アプローチです。SRE チームはソフトウェアツールを使用してシステムの管理、問題解決、および運用タスクの自動化を行います。 SRE は、運用チームが多くの場合手作業で行ってきたタスクを、ソフトウェアと自動化を活用するエンジニアと運用チームに担当させ、ソフトウェアと自動化によって問題を解決し、本番システムを管理します。 SRE は、スケーラブルで信頼性の高いソフトウェアシステムを構築する際に効果を発揮します。コードを使用して大規模システムの管理を支援するため、数千台や数万台に及ぶマシンを管理するシステム管理者により多くのスケーラビリティと持続性をもたらします。 サイト信頼性エンジニアリングのコンセプトは Google エンジニアリングチーム

                            SRE とは| Red Hat
                          • 社内でSREを広めるのに苦戦しているSREsにITIL 4がいい感じっぽいので共有したい

                            これは SREアドベントカレンダー 2022 - Qiita 2日目のエントリです。 昨日は みのるん☁️(@minorun365)さん の Let's see AWS W-A "Reliability Pillar" from SRE's view でした。 TL; DR SRE的な取り組みを社内で広めていくにあたり、自チームから外への普及に苦戦しているのであれば、ITIL 4が助けになるかもしれません "ITIL" のいいところは、歴史と権威があるところ、ガッツリ言語化されているところで、 "ITIL" の残念なところは、古臭い、柔軟性がなく堅苦しく固定的、実践的かどうかより手続き重視というイメージだった(個人的な印象) ITIL 4について知ったところ「"ITIL" の残念なところ」が払拭された Disclaimer ITIL 4の資格を取得したりはしていません わたし自身が特段IT

                            • DevOps, SRE, and Platform Engineering

                              I compiled this thread on Twitter, and all of a sudden, it got quite some attention. So here, I'll try to elaborate on the topic a bit more. Maybe it would be helpful for someone trying to make a career decision or just improve general understanding of the most hyped titles in the industry. DevOps, SRE, and Platform Engineering (thread) Sharing my understanding of things after working in this doma

                                DevOps, SRE, and Platform Engineering
                              • 弊社SREにオンラインで質問できる会、やります!|株式会社ヘンリー

                                こんにちは、株式会社ヘンリー SRE(Site Reliability Engineer)の戸田(@Kengo_TODA)です。来週水曜の2023年2月22日に弊社SREにオンラインで質問できる会を開催します! SRE、名前は一緒でも中身が全く違う説みなさんはSREの業務を説明できますでしょうか?私はSREの業務や責務はけっこう各社各様だという印象を持っています。 例えば弊社SREが何をやっているかは前回の記事である程度触れていますが、Kubenetesが出てこないことや製品コード(Apolloクライアント)に手を入れることを指して「ウチのSREとまったく違う」と感じる方も、生産性とサービス安定性の向上にピンを留めていることを見て「どこも解きたい課題は同じなんだな」と感じる方もいらっしゃったはずです。 これは自然なことだと言えます。「我々が顧客に提供したい信頼性とは何か」という同じ問いに対

                                  弊社SREにオンラインで質問できる会、やります!|株式会社ヘンリー
                                • モニクルのSREチーム形成期を振り返って

                                  はじめに モニクルでSREをしているbeaverjrです。 この記事では、私が2023年7月に弊社初の専任SREとして入社してからの経験を振り返り、行ってきたこと、実際に直面した挑戦やそこから得られた学びを共有します。 今回は技術的な面ではなく、SREチーム・個人としてどのように成長してきたか、その過程でどのようにSREのイネーブリングの取り組みを進めてきたかに焦点を当てて紹介したいと思います。 ※イネーブリング:この文章では組織にSREの原則と実践を広め、根付かせることを目指す活動を意味します。 SREチーム立ち上げの背景 弊社はエンジニア全員がフルサイクルエンジニアとして活躍できる組織を目指しています。このビジョンの実現に向け、2023年7月にSREチームが設立されました。 立ち上げからの取り組み①:チームビルディング チームビルディングの過程では、まず共通の目標とビジョンを確立するた

                                    モニクルのSREチーム形成期を振り返って
                                  • SRE NEXT 2020 のコアスタッフ経験が尊かった - ant-in-giant Memoris

                                    1/25(土) に行われた以下カンファレンスへコアスタッフとして参画してました。 sre-next.dev This is Me in Team 何かが合致したようで、自他共に認められる結果が出せた最高の経験となったように思っています。 今後、IT関連コミュニティのイベントが目白押しで、そういった機会に当日なりコアなりスタッフとして関わることに興味がある方の何かしらの参考になればと思い、あったことや感じたことを共有してみます。 目次 目次 SRE NEXT 2020 が成したこと イベントの規模感 反響 Realtime record After Impressions 自分が(イベント前に)準備したパート Join は 12月上旬 やって、わかったこと インカム の用意 Points of what I understood (1) アルバイトスタッフを雇う Points of what

                                      SRE NEXT 2020 のコアスタッフ経験が尊かった - ant-in-giant Memoris
                                    • delyのSREチームがオンコールトレーニングを導入する3つの理由 - dely Tech Blog

                                      こんにちは! AWSのカオスエンジニアリングの新サービスもリリースされ、オンコールトレーニングへの関心が高まっているのを感じています。delyのSREチームのjoooee0000(高山)と申します。 この記事は「dely #2 Advent Calendar 2020 - Adventar」の24日目の記事です。 昨日は新規事業開発をしている おっくー (@okutaku0507) さんによる 「KPI自動通知Botで始める 数字に執着するプロダクトマネジメント|奥原拓也 / クラシルPdM|note」でした。 KPIの必要性から具体的なBot化の知識まで具体的に解説されているのでぜひ参考にしてみてください! note.com adventar.org adventar.org はじめに 今回は、delyのSREチームがオンコールトレーニングを導入する3つの理由を紹介したいと思います。 d

                                        delyのSREチームがオンコールトレーニングを導入する3つの理由 - dely Tech Blog
                                      • Linux Page Cache for SRE

                                        More post series:1. File descriptors, pipes, terminals, user sessions, process groups and daemons2. Linux Page Cache mini book3. Resolvers and Dual-Stack applications new SRE deep dive into Linux Page Cache #In this series of articles, I would like to talk about Linux Page Cache. I believe that the following knowledge of the theory and tools is essential and crucial for every SRE. This understandi

                                        • SRE Magazine

                                          SRE MagazineはSREに関連する記事や、SREに関係する人にスポットを当てたWeb雑誌です

                                            SRE Magazine
                                          • SRE NEXT 2024に行ったら気づきが多かった話 - LIVESENSE ENGINEER BLOG

                                            はじめに カンファレンス概要 カンファレンス参加前の背景 参加理由 得た気づきと感想 SREとは何かの気づき SREからの組織論 計測への気づき 登壇以外での気づき 今後 はじめに 技術部インフラグループの鈴木です。SRE NEXT 2024に行ってきました。実はテック系のカンファレンスに参加するのは初めてです。参加してみて大きな刺激を受けたので共有します。 カンファレンス概要 sre-next.dev 信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 同じくコミュニティベースのSRE勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されます。 SRE NEXT 2024のテーマは「Beyond NEXT」です。SRE NEXT 2023で掲げた価値観 Diversity、Interactivity、Empathyを大切にしつつ、SREの担

                                              SRE NEXT 2024に行ったら気づきが多かった話 - LIVESENSE ENGINEER BLOG
                                            • 組織の信頼性のマインドセット:Google SRE の知見 | Google Cloud 公式ブログ

                                              ※この投稿は米国時間 2021 年 9 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: プロダクトの信頼性は、数多くの規範的規則を守りさえすれば確保できるというものではありません。今回は、Google SRE のメンバー(開発担当シニア テクニカル プログラム マネージャーの Vartika Agarwal、シニア SRE マネージャーの Tracy Ferrell、ディレクター SRE の Mahesh Palekar、SRE 担当シニア テクニカル プログラム マネージャーの Magi Agrama)に、チームの現在の信頼性のマインドセットを評価する方法と、目指すべき姿について話を聞きました。 信頼できるソフトウェア プロダクトがあると、組織に対するユーザーからの信用、開発プロセスの有効性、プロダクト全般の品質を改善できます。サービス停止は

                                                組織の信頼性のマインドセット:Google SRE の知見 | Google Cloud 公式ブログ
                                              • ミクシィのSREがセキュリティに貢献する理由

                                                サイトの信頼性向上のために、運用の自動化や障害対応、パフォーマンス管理などに取り組む「Site Reliability Engineering」(SRE)を導入する企業が増えている。そんな中、SREがセキュリティに貢献する動きが広まりつつあるという。2020年1月に開催された「SRE NEXT 2020」で登壇したミクシィの清水勲氏の講演内容を要約してお伝えする。 「DevOps」と「SRE」の関係性 SREの基礎知識として、まず清水氏がよく見聞きするという「DevOpsとSREの違い」について「その説明はGoogleのWebサイトに掲載されている」と引用して解説した。それによると、「DevOpsをオブジェクト指向におけるインタフェースと捉えると、クラスSREはDevOpsの実装である」「SREには、DevOpsのインタフェースの部分に限らない追加のプラクティスと推奨事項が含まれる」「より

                                                  ミクシィのSREがセキュリティに貢献する理由
                                                • ZOZO SREチームが次世代NewSQL TiDBを触ってみた

                                                  PingCAPはエンタープライズ向けのソフトウェアサービスプロバイダーとして2015年に設立され、オープンソースでクラウドネイティブなワンストップのデータベースソリューションを提供することにコミットしています。PingCAPの代表的なプロジェクトであるTiDBは、オープンソースの分散型ハイブリッド・トランザクション/分析処理(HTAP)データベースで、水平方向の拡張性、強力な一貫性、MySQLとの互換性を備えた高い可用性を特徴としています。 ※このブログは、株式会社ZOZOの横田様および川崎様にご提供いただきましたインタビュー記事となり、掲載期間は2023年1月10日〜2023年7月9日の6ヶ月間の限定公開となります。記事の中では敬称を略しておりますのでご了承ください。 まず、お二人のこれまでのキャリアについて教えてください。 横田:私は2013年4月にスタートトゥデイ<現ZOZO>に新卒

                                                    ZOZO SREチームが次世代NewSQL TiDBを触ってみた
                                                  • 2023年から始めたSREチームの情報発信とプロポーザル供養の話 - ANDPAD Tech Blog

                                                    こんにちは。SREチームの吉澤(写真左)です。 この記事では、今年2023年にアンドパッドSREチームが情報発信を強化するために行った活動と、プロポーザルが不採択になり続けるなかで、少しずつ情報発信できるようになってきた現状をご紹介します。私たちと同様、採用強化のための情報発信に苦戦しているSRE・インフラチームの参考になれば幸いです。 採用のための情報発信強化のきっかけ 私は、今年の3月にアンドパッドに入社しました。アンドパッドとしては久々のSRE採用だったようです。 入社後に色々話を聞いていくと、SREチームは少数精鋭でアンドパッドのマルチプロダクト開発を支えていたものの、行うべきタスクに対してエンジニアが足りていない状況が見えてきました。 そのため、まずはその状況を可視化すべく、SREメンバー全員との1on1を実施し、SREチームのバックログを作成しました。そして、隔週でバックログ振

                                                      2023年から始めたSREチームの情報発信とプロポーザル供養の話 - ANDPAD Tech Blog
                                                    • ペパボSREケーススタディ - ロリポップ!レンタルサーバーのSLI/SLOをもとにしたパフォーマンス改善の取り組みを紹介します - Pepabo Tech Portal

                                                      技術部シニアエンジニアリングリードの @tnmt です。 近年ペパボではSRE(Site Reliability Engineering)に取り組んでいます。同じくSREに取り組むエンジニアを読者想定に、今回からいくつかケーススタディとして事例の紹介をしていきたいと思います。ペパボのエンジニアリングの一部理解になれば幸いです。 第一弾として、2019年より行っているロリポップ!レンタルサーバーでのSLI/SLOを元にしたパフォーマンス改善の取り組みをライトに取り上げます。 ロリポップ!レンタルサーバーのSLI/SLO運用 きっかけ そもそものきっかけとしては、2019年当時のサービス利用ユーザー様の一部から「ウェブサーバーのレスポンスが悪い」というフィードバックをいただいていたということでした。 ウェブサーバーのレスポンスタイムはホスティングサービスの品質を左右するものであり、ロリポップ!

                                                        ペパボSREケーススタディ - ロリポップ!レンタルサーバーのSLI/SLOをもとにしたパフォーマンス改善の取り組みを紹介します - Pepabo Tech Portal
                                                      • なぜSREをはじめるのは難しいのか - SREにまつわる不安を緩和するためのTips集

                                                        本記事は、TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまでのセッション書き起こし記事になります。 イベントページのタイムテーブルから、その他のセッションに関する記事もお読み頂けますので、一度アクセスしてみてください。 本セッションの登壇者 セッション動画 「なぜSREをはじめるのは難しいのか」について話していこうと思います。よろしくお願いします。 「これでいいんだっけ?」をなくすために なぜ難しいのかを考えたときによくあるのが「これでよかったんだっけ?」となるケースじゃないかなと思います。たとえば、SREとは言ってもインフラエンジニアから名前を変えただけだったり、何でもできるエンジニアが担当した結果、何でも屋さんになってしまったり、他社事例をトレースしたんだけどうまくいかなかったり…などです。 最近はこういう話がすこし高い

                                                          なぜSREをはじめるのは難しいのか - SREにまつわる不安を緩和するためのTips集
                                                        • SREが考えるハイブリッド開催の技術イベントのライブ配信における信頼性

                                                          SRE NEXT 2024 https://sre-next.dev/2024/schedule/#jp075

                                                            SREが考えるハイブリッド開催の技術イベントのライブ配信における信頼性
                                                          • ChatGPT:SREやDevOpsなどのソフトウェアの運用に伴う課題解決に関する提案を行うプロンプト - じゃあ、おうちで学べる

                                                            はじめに ソフトウェアの問題解決に関する提案してくれるプロンプトを利用することは、今後の開発者やエンジニアがより効率的に問題解決を行うための重要な手段の一つになります。というか毎回、適切なプロンプトを作成するのが面倒になった。このプロンプトには、ソフトウェア開発におけるベストプラクティスやDevOps、SRE方法論などの知識や経験が共有され、開発者やエンジニアの能力向上に貢献することができるようになれば良いなーと妄想しております。GPT4 のみを対象にしています。GPT3.5 で改善を試みたけど4ほど良い内容が返ってこない。 効果 ユーザーの問題を効果的に解決するための具体的なソリューションを提案します。 DevOpsとSREの手法を活用して、ユーザーのソフトウェア開発プロセスを改善します。 ユーザーとのコミュニケーションを通じて、問題解決の過程でのフィードバックを得ることができます。 想

                                                              ChatGPT:SREやDevOpsなどのソフトウェアの運用に伴う課題解決に関する提案を行うプロンプト - じゃあ、おうちで学べる
                                                            • SRE NEXT 2020 基調講演で「Webサービスを1日10回デプロイするための取り組み」を話しました - 酒日記 はてな支店

                                                              SRE NEXT 2020 という、国内初の SRE に特化したカンファレンスで基調講演をご依頼いただいて、「Webサービスを1日10回デプロイするための取り組み」を話してきました。 sre-next.dev speakerdeck.com これまでいろいろ発表はしてきましたが、基調講演というのは初めてで、さて何を話したほうがいいのか悩みました。とはいえ自分は基本的に技術でなにかを解決する話しかできないので、かなり現場寄りの話です。いつもどおり。 時間の関係でいろいろ省略した部分があるのですが、懇親会で聞かれた CircleCI に移行して増えたコストの話については LobiのCIをJenkinsからCircleCIに移行したはなし - KAYAC engineers' blog にあるとおり 数万円程度だったCI関連費用は、およそ2倍の十数万円になりました。 ぐらいなので、Jenkins

                                                                SRE NEXT 2020 基調講演で「Webサービスを1日10回デプロイするための取り組み」を話しました - 酒日記 はてな支店
                                                              • Setting SLOs for services -- SRE | Google Cloud Blog

                                                                If you’ve embarked on your site reliability engineering (SRE) journey, you’ve likely started using service-level objectives (SLOs) to bring customer-focused metrics into your monitoring, perhaps even utilizing Service Monitoring as discussed in “Setting SLOs: a step-by-step guide.” Once you're able to decrease your alert volume, your oncallers are experiencing less operational overhead and are foc

                                                                  Setting SLOs for services -- SRE | Google Cloud Blog
                                                                • SREとはなにか [サイト リライアビリティ エンジニアリング] | sreake.com | 株式会社スリーシェイク

                                                                  ITサービスのインフラ運用・改善といった観点から「SRE」という言葉を耳にすることが増えてきました。以下では、SREとは何か、DevOpsやインフラエンジニアと何が違うか、どのような場面でSREが必要になるかといった点について解説いたします。また、「SREに関するTips」や「ITサービス企業の自社SRE事例」についても、あわせてご紹介します。 SREとはなにか SREとは、ITサービスの信頼性を高めるために、ITエンジニア(開発者)が信頼性向上のために行う設計やアプローチ、またはこれらを行うチームを指します。 SREの発端は、グーグルが自社の検索エンジンサイトである「google.com」を安定稼働させるために、システムアドミニストレータ(運用者)ではなく、エンジニアを用いてサービス横断的なアプローチに実施したアプローチを指します。なお、サイトリライアビリティエンジニアリング(Site

                                                                    SREとはなにか [サイト リライアビリティ エンジニアリング] | sreake.com | 株式会社スリーシェイク
                                                                  • 次世代データベース TiDB の検証とその評価 [DeNA インフラ SRE] | BLOG - DeNA Engineering

                                                                    ※こちらは先日実施された DeNA インフラエンジニア / SRE MEETUP で話した内容を Blog 記事化したものです! こんにちは!IT基盤部の熊谷です。IT基盤部にて大規模ゲームのインフラを見ている 新卒2年目のインフラエンジニアです。この記事では “DeNA でのデータベース運用とそのツラミ” と、“TiDB導入への検証・検討” をご紹介させていただきます。 データベースの最適解 DeNA のデータベース構成は最適解を求めて改良を積み重ねてきました。最初期の構成、(便宜上、第1世代と呼びます) では VM Instance 上に MySQL を構築し管理する MySQL on EC2 構成。続く第2世代では、マネージドサービスを駆使した Aurora MySQL 構成。この2世代の中で生じた “ツラミ” を解消する次の世代、言わば 第3世代に該当する新しいデータベース構成を現

                                                                      次世代データベース TiDB の検証とその評価 [DeNA インフラ SRE] | BLOG - DeNA Engineering
                                                                    • Site Reliability Engineering (SRE) | Google Cloud

                                                                      Download the new whitepaper on SRE to learn about key concepts and how Google Cloud can help you on your SRE journey SRE is a job function, a mindset, and a set of engineering practices to run reliable production systems. Google Cloud helps you implement SRE principles through tooling, professional services, and other resources.

                                                                        Site Reliability Engineering (SRE) | Google Cloud
                                                                      • SRE とプロダクト開発の EM を兼務して半年経った - ツナワタリマイライフ

                                                                        3ヶ月前の振り返り https://blog.chaspy.me/entry/2022/12/24/120000 いろいろキツかったがなんとか走り切れたかな、というそんな感じ。うまくいかない時期もあったが、周囲にサポートしてもらいながら、少しずつ前に進むことはできたと思う。 SRE ややハードになりそうな状況ではあったが、なんとか乗り越えられたと思う。メンバー1人1人の自立性と技術力のおかげだと思う。 11月に1人、2月に1人入社し、メンバーは7人になったところで採用を止めることができた。これにより採用活動にかけていた時間を使わなくなったのは大きい。 新しく入った2名についても順調に立ち上がっていると判断していて、1on1は細かめにやっているものの、マネージャーというよりはメンターとそれを受け入れるチームが正しく機能していたことが大きいと思う。 後半の Q4はリーダーが他のチームに留学した

                                                                          SRE とプロダクト開発の EM を兼務して半年経った - ツナワタリマイライフ
                                                                        • 【Online】6社合同 SRE勉強会 (2022/03/12 11:00〜)

                                                                          6社合同SRE勉強会 について IT企業6社(LINE/メルカリ/クックパッド/ディー・エヌ・エー/サイバーエージェント/リクルート)が合同で開催する、Site Reliability Engineering(SRE)領域の勉強会です。 各社が特徴的な事例を共有し、各セッションのAsk the Speakerでは違う会社の登壇者がモデレーター兼聞き手を務めて、知見共有&深堀りを行なっていきます。 Opening Sessionでは、イベント開催の経緯やコンセプトや意気込みなどを簡単にお話しします。Closing Sessionでは、各登壇者がそれぞれのセッションに参加して感じたこと、気になった・良かったポイントなどをラフに話し合います。 現在SREという立場で業務に取り組む方、規模の大きい会社・サービスにおけるSREの事例や課題解決アプローチに興味がある方、今後のキャリアでSREという領域

                                                                            【Online】6社合同 SRE勉強会 (2022/03/12 11:00〜)
                                                                          • 大きな組織にSLOを導入し 運用するということ、その難しさ / SRE NEXT 2024

                                                                            SRE NEXT 2024の登壇資料になります。

                                                                              大きな組織にSLOを導入し 運用するということ、その難しさ / SRE NEXT 2024
                                                                            • SRE vs. DevOps vs. Platform Engineering

                                                                              Join our community of software engineering leaders and aspirational developers. Always stay in-the-know by getting the most important news and exclusive content delivered fresh to your inbox to learn more about at-scale software development.

                                                                                SRE vs. DevOps vs. Platform Engineering
                                                                              • メンテナンスの時間枠がエラー バジェットに与える影響 - SRE のヒント | Google Cloud 公式ブログ

                                                                                ※この投稿は米国時間 2020 年 6 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。 サイト信頼性エンジニアリング(SRE)の仕事を始めたとします。サービスを開設しました。ユーザーがこのサービスをどのように利用するかについてすでに分析していたので、ユーザーの満足度と相互に関連する主な指標を策定できました。サービスレベル目標を設定したので、エラー バジェットも指定したことになります。よくできました。 次に検討すべきことは、サービスを停止させるメンテナンスの時間枠のスケジュールを管理することです。このダウンタイムをエラー バジェットの対象とする必要があるでしょうか。分析してみましょう。 簡単に言うと、エラー バジェットは、ユーザーが不満を感じ始めるまでの一定の期間にサービスで累積できるエラーの量です。これをユーザーの忍耐度と考えることができますが、可用性やレ

                                                                                  メンテナンスの時間枠がエラー バジェットに与える影響 - SRE のヒント | Google Cloud 公式ブログ
                                                                                • SREとは:SREメトリクスと監視のゴールデンシグナル

                                                                                  日本でもDevOpsやSREというキーワードを聞くようになりましたが、肝心のITシステム自体はまだまだ従来のまま、といったケースが非常に多いかと思います。そして多くの場合、監視の仕組みも従来のままとなっているのではないかと思います。にもかかわらず、ビジネス側からITへの期待は飛躍的に増大しており、システムのパフォーマンスや可用性を維持するだけでも、とても大変なタスクとなっているのではないでしょうか。 こういった状況はIT先進国であるアメリカでも当然発生しており、その中でのベストプラクティスとして4つのゴールデンシグナルというものが定められました。具体的には、レイテンシー、トラフィック、エラー、サチュレーションです。これが一定以上の水準である場合にシステムは「健全」と判断されます。この4つのゴールデンシグナルをIT運用側と開発側の共通認識とすることで、「何が起きているか」「どうするべきか」

                                                                                    SREとは:SREメトリクスと監視のゴールデンシグナル