並び順

ブックマーク数

期間指定

  • から
  • まで

961 - 1000 件 / 1128件

新着順 人気順

SREの検索結果961 - 1000 件 / 1128件

  • 監視からオブザーバビリティへ | CloudNative Days Tokyo 2020

    今、時代は監視からオブザーバビリティへと移り変わりつつあります。様々なツールの登場により可視化する方法は増えましたが、監視という1つの運用だけでなく、日々の作業を改善しつづけられる “仕組み” をシステムに持たせることが求められています。それこそがまさにオブザーバビリティのもつ重要な目的です。 オブザーバビリティプラットフォームである New Relic は、監視という運用の殻を破り、エンジニアが本来費やすべき”日々の改善”という本来の目的へと変化させていくことができます。最新のマイクロサービス分散トレーシングや“育つAIops”による運用改善、既存のCNCF OSSツールとの連携など、New Relic で日々の改善を実現する方法をご紹介します。 清水 毅 New Relic Senior Solutions Consultant パッケージベンダーにてecommerceシステムのソフト

      監視からオブザーバビリティへ | CloudNative Days Tokyo 2020
    • リクルートにおける Platform Engineering / SRE の事例共有

      2023/12/06に、 Platform Engineering Meetup で発表した菅沼の資料です。

        リクルートにおける Platform Engineering / SRE の事例共有
      • エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud 公式ブログ

        ※この投稿は米国時間 2020 年 9 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。 DevOps Research and Assessment(DORA)チームが実施した 6 年間の研究から、ソフトウェア開発チームのパフォーマンスを示す 4 つの指標が確立されました。 デプロイの頻度 - 組織による正常な本番環境へのリリースの頻度 変更のリードタイム - commit から本番環境稼働までの所要時間 変更障害率 - デプロイが原因で本番環境で障害が発生する割合(%) サービス復元時間 - 組織が本番環境での障害から回復するのにかかる時間 概要レベルでは、デプロイの頻度と変更のリード時間は速度の指標であり、変更障害率とサービス復元時間は安定性の指標です。チームはこれらの値を測定し、継続的に改善を繰り返すことで、ビジネス成果を大幅に向上させることができま

          エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud 公式ブログ
        • terraform stateの再設計に取り組んだ話 - freee Developers Hub

          こんにちは!freee enabling sre teamに所属しているhamaa(濵田雄太)です。 この記事はfreee Developers Advent Calendar 2023 - Adventar 1日目です。 自分はfreeeにjoinし、おおよそ1年がたちました。この1年間で主にterraform state再設計、移行について取り組んでいました。 今回はterraform project, stateをどのような観点を元に設計するのかについて記事を書いていこうと思います! 対象読者 これからterraform stateを設計、再設計する人 terraform stateをリファクタリングを考えている人 話さないこと terraform stateの基礎的な話 話の結論 terraform stateは以下の観点で設計することが必要と考えています。 ステークホルダー、設計

            terraform stateの再設計に取り組んだ話 - freee Developers Hub
          • Cloud Native の作法

            2023年7月13日 成熟度モデルを活用したCloud Nativeへの道筋 という副題で登壇します #開発生産性con_findy https://syu-m-5151.hatenablog.com/entry/2023/07/13/131433 開発生産性Conference の…

              Cloud Native の作法
            • GitHub - linkedin/school-of-sre: At LinkedIn, we are using this curriculum for onboarding our entry-level talents into the SRE role.

              Site Reliability Engineers (SREs) sits at the intersection of software engineering and systems engineering. While there are potentially infinite permutations and combinations of how infrastructure and software components can be put together to achieve an objective, focusing on foundational skills allows SREs to work with complex systems and software, regardless of whether these systems are proprie

                GitHub - linkedin/school-of-sre: At LinkedIn, we are using this curriculum for onboarding our entry-level talents into the SRE role.
              • NALSD フラッシュカードを使用した 分散システムの設計 | Google Cloud 公式ブログ

                ※この投稿は米国時間 2020 年 5 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。 分散システムには数多くの設計方法が存在しますが、その一つにシステムの自然な拡張を考慮した設計があります。この方法では、システムがより多くのリクエストを処理していくにつれて、コンポーネントの書き換えや再設計を行います。また、概念実証から始める手法もあります。システムによってビジネスに付加価値がもたらされたら、次のバージョンがゼロから設計されます。 Google では、Non-Abstract Large System Design(NALSD)と呼ばれる手法を使用しています。NALSD は、分散コンピューティング向けの Borg クラスタ管理や Google の分散ファイル システムなど、分散システムの設計、検証、評価を行うための反復プロセスについて記述しています。最初から

                  NALSD フラッシュカードを使用した 分散システムの設計 | Google Cloud 公式ブログ
                • しんどくないSLI/SLOプラクティスをNew Relicで?

                  はじめに こんにちは、情報システム部 SRE 橋本です。 今回はQiitaのNew Relic Advent Calendar 2023の14日めの記事として書きました。 担当しているシステムでサービス監視やSLI/SLOを用いて、どのようにしてサービスの健全性を知るのか?というのを考えていく中でNew Relicが課題解決に繋がるかもしれないと思い、直近でチームで評価を行いました。 この記事では、どのような課題感を持っていたのかというのと、その課題感に対して当該プロダクトがどう刺さったのかを簡単にお話したいと思います。 サービスとその信頼性 BtoBやBtoCなどで違いはあると思いますが、サービスがあり(中央)、サービスの提供者(下)、サービスを利用するお客様などの利用者(上)という3つの関係性で整理できます。 この関係性の中で、我々は利用者が正常にサービスを利用できているかを知りたいと

                    しんどくないSLI/SLOプラクティスをNew Relicで?
                  • 6月新刊情報『サイトリライアビリティワークブック』

                    『サイトリライアビリティワークブック ―SREの実践方法』 Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne 編、澤田 武男、関根 達夫、細川 一茂、矢吹 大輔 監訳、玉川 竜司 訳 2020年6月15日発売予定 512ページ(予定) ISBN978-4-87311-913-7 定価5,060円(税込) 既刊書『SRE サイトリライアビリティエンジニアリング』で、サイトリライアビリティエンジニアリング(SRE)はプロダクションサービスの稼働と信頼性の維持がサービス設計の基本であるとし、行動の基礎となる原則と理論を述べました。その実践編であり副読本でもある本書は、SREを組織やプロジェクトで導入するにあたり、必要となる具体的な方法や手順を解説します。またこれまでGoogle内部で

                    • SREとして仕事をしていて最近思うこと - ROBOT PAYMENT TECH-BLOG

                      この記事は Qiita の SRE Advent Calendar 2019 7日目に寄せて書きました。 こんにちは。請求管理ロボシステムチームの @trunkatree です。 今回は私の所属するSREチーム(私と @j_untanaka さん)が仕事をしていて最近思うことをまとめてみます。若干フワッとした内容ですが、毎日つづく Advent Calendar の息抜きだと思ってどうかお付き合いください。 前置き クラウド時代は情報収集が大切 SaaSに合わせる設計思想 終わりに 前置き 最初に自己紹介がてらチーム体制について注釈させてください。 私たちは「請求管理ロボ」という SaaS を自社で開発運用しています。サービスや基盤の概要はこちらの記事( 請求管理ロボシステム基盤の概要 )をご確認いただければと思いますが、システムはAWSで動いています。 システムチームでは現在10名のエン

                        SREとして仕事をしていて最近思うこと - ROBOT PAYMENT TECH-BLOG
                      • Use the TempTable storage engine on Amazon RDS for MySQL and Amazon Aurora MySQL | Amazon Web Services

                        AWS Database Blog Use the TempTable storage engine on Amazon RDS for MySQL and Amazon Aurora MySQL August 2023: This post was reviewed and updated to reflect a new parameter change in MySQL Community 8.0.28 that impacts Amazon Aurora MySQL release. MySQL 8.0 has introduced TempTable as the new, default internal temporary table storage engine to speed up query processing. The MySQL query optimizer

                          Use the TempTable storage engine on Amazon RDS for MySQL and Amazon Aurora MySQL | Amazon Web Services
                        • SRE 3社合同勉強会レポート | 脱AWSシングルアカウントへの道のりからTerraformのCI/CD化まで|Kurashicom Tech Blog

                          こんにちは、テクノロジーグループの矢田です。 先日、以前からお付き合いのある面白法人カヤックさんとprimeNumberさんと合同でSRE勉強会を行いました。 今回はその内容についてレポートさせていただきます! カヤックさんとは以前に勉強会をさせていただいており、primeNumberさんとは初めての交流になりました。 カヤックさんとの勉強会の内容は下記をご覧ください。 総勢12名の参加で、弊社からは聴講を含め3名参加しました。 SRE勉強会ということでSRE周りで幅広いテーマの発表が行われました。 詳しい発表内容はアップロードしてくださっているスライドをご覧ください。 さっそく発表内容をレポートしたいと思います。 「GitHub Actionsに『強い』AWSの権限を渡したい」最初はカヤックの藤原さんからGitHub ActionsでTerraform applyを行うためにどうやったら

                            SRE 3社合同勉強会レポート | 脱AWSシングルアカウントへの道のりからTerraformのCI/CD化まで|Kurashicom Tech Blog
                          • 今期SREチームの取り組みについて | ランサーズ(Lancers)エンジニアブログ

                            ランサーズ Advent Calendar 2021 10日目の記事です。 Lancers Engineer Blog をご覧のみなさんこんにちは。開発部/技術基盤 SREの安達(@adachin0817)です。今年2月からダイエットを始めていまして、ジョギングを週2~3日習慣付けられるようになりました。15キロ減量しましたが、まだまだ落とせると日々舞い上がっております。他にもCakePHPで個人開発したり、サーバーサイドやフロントにもチャレンジしています。 早朝は極寒だった 5.02キロジョギングしました👟 — adachin👾SRE (@adachin0817) December 9, 2021 さて、直近のSREチームの大きなイベントとしてはランサーズ本体のインフラを改善している最中でございます。まずは上期SREチームで取り組んだことをエンジニアブログを元にまとめていき、最後には

                              今期SREチームの取り組みについて | ランサーズ(Lancers)エンジニアブログ
                            • Amazon.co.jp: SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践: David N. Blank-Edelman (編集), 山口能迪 (監修), 渡邉了介 (翻訳): 本

                                Amazon.co.jp: SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践: David N. Blank-Edelman (編集), 山口能迪 (監修), 渡邉了介 (翻訳): 本
                              • 2024-07-11 Mercari Hallo 立ち上げ時のSRE

                                2022-03-26 TensorFlow Parameter Server Training紹介@機械学習の社会実装勉強会

                                  2024-07-11 Mercari Hallo 立ち上げ時のSRE
                                • Sloth - Sloth

                                  Sloth Prometheus SLO generator Stop using complex specs and processes to create Prometheus based SLOs. Fast, easy and reliable Prometheus SLO generator. Simple: Lightweight, and focused on UX Standards: Based on Google’s SRE book. Plugins: Abstracts and extends SLIs using plugins. One way: Standardizes the SLO implementation. Adaptive: Multiple specs like OpenSLO or Kubernetes CRDs. Prometheus: De

                                  • [3-shake 秋季インターンブログ] Trivy Operator を用いた脆弱性管理の提案 | sreake.com | 株式会社スリーシェイク

                                    はじめに はじめまして、スリーシェイクのSreake 事業部インターン生の鈴木友也と永井隆介です。Sreake 事業部は SRE関連技術に強みを持つエンジニアによるコンサルテーションサービスを提供する事業部であり、私たちも SRE 技術の調査と研究を行う目的で2022年10月11日 ~ 24日に開催された短期インターンに参加しました。2週間という期間を使って、Trivy Operator の技術検証と運用方法の提案を行いました。以下では、その成果をまとめたいと思います。 Trivy Operatorとは Trivy Operatorは、Kubernetes ネイティブな統合セキュリティプラットフォームです。具体的には、Kubernetes Operator を用いてコンテナイメージの脆弱性を自動でスキャンしたり、デプロイされる Kubernetes リソースの設定不備を自動で検証したりでき

                                    • AWSのベストプラクティスを適応していくために ENECHANGEがセキュリティ対策の見直しを行ったきっかけ

                                      渡辺氏の自己紹介と、サイバーセキュリティクラウドの紹介 渡辺洋司氏(以下、渡辺):みなさま、こんばんは。まずはSession1を始めたいと思います。まずタイトルですね。「AWSで持続可能なサービスを支える“セキュリティ”の重要性」というところで、今回参加してくださっているみなさんは、自社のサービスをAWSで運用されているみなさんです。実際にセキュリティ対策を進めてきて、いろいろな歴史を持っている方たちかと思います。 弊社でもサービスをやっていますが「じゃあ実際にどういうふうにやったらいいんだろうな」とか「みなさんはどんなふうにやっているんだろうな」みたいなところを聞けたら、みなさんにも「なるほど!」と思ってもらえるのかと思っているので、みなさんにいろいろと質問したいなと思っています。 では、さっそく私から自己紹介をしたいと思います。サイバーセキュリティクラウドの代表取締役CTOをしている、

                                        AWSのベストプラクティスを適応していくために ENECHANGEがセキュリティ対策の見直しを行ったきっかけ
                                      • Chapter 2 - Implementing SLOs, Google SRE Book

                                        Implementing SLOs By Steven Thurgood and David Ferguson with Alex Hidalgo and Betsy Beyer Service level objectives (SLOs) specify a target level for the reliability of your service. Because SLOs are key to making data-driven decisions about reliability, they’re at the core of SRE practices. In many ways, this is the most important chapter in this book. Once you’re equipped with a few guidelines, s

                                        • オブザーバビリティ(可観測性)とは|定義、意味、組織にもたらすメリット | Splunk

                                          組織全体を可視化してインサイトを獲得し、セキュリティの強化、信頼性の向上、イノベーションの加速を図りましょう。

                                            オブザーバビリティ(可観測性)とは|定義、意味、組織にもたらすメリット | Splunk
                                          • ZOZOTOWN(16歳)の悩みをSREが赤裸々に語る / 20210728

                                            ZOZO Tech Meetup〜マイクロサービス化に取り組む、16年目のZOZOTOWN〜 の1つ目の発表です。 【イベント詳細・そのほかの発表】 https://techblog.zozo.com/entry/20210728-meetup-report 【アーカイブ動画】 http…

                                              ZOZOTOWN(16歳)の悩みをSREが赤裸々に語る / 20210728
                                            • データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み | CyberAgent Developers Blog

                                              サイバーエージェントグループには、様々なSRE組織があり、日々サービスの信頼性向上に取り組んでいます。 6月27日〜28日にかけて開催した「CyberAgent Developer Conference 2023」では、当社のDeveloper Experts(SRE領域)を務める柘植が、サイバーエージェントグループのSRE組織やSREsの活動についてもご紹介しました。 柘植 翔太 2014年新卒入社。インフラエンジニア、SREとして、AMEBA、AWA、社内基盤など50以上のメディアサービス・システムへのSRE推進、リスク改善、サービス立ち上げを経験。現在は、横断SRE組織のマネージャーとして、SREのプラクティス開発やEnablement、人材育成へ注力している。 サービスリライアビティグループというメディア事業横断のSRE組織のマネージャーをしている柘植と申します。本日はデータで見る

                                                データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み | CyberAgent Developers Blog
                                              • Runbookに何を書き、どのようにアラートを振り分けるか?

                                                SREのプラクティスにおいてアラートに対応するRunbookを備えることは推奨されています。しかしながら記載する内容についてはしばしば議論の対象となり、短期的な対応手順にフォーカスするのか、ハイレベルな情報にフォーカスするのか、メンテナンスのコストとのバランスをどのように取るか、むしろRunbookに時間を費やすべきではないのではないか、といったことまで様々な意見があります。 グリーではいわゆる障害対応の手順書は古くから運用されていましたが、それらは基本的に一次対応にフォーカスしており、根本的な原因調査のヒントがない、アラートの背景を伝えられていない、検索性が悪いなどの課題がありました。 本セッションでは一つの解として、これらの課題を解決するために新たにアラートに対応するRunbookの仕組みを整備し、新規に運用を開始した事例についてお話します。 また、合わせてアラートをより有効に機能させ

                                                  Runbookに何を書き、どのようにアラートを振り分けるか?
                                                • 2023年 crowdworks.jp の SRE チームでやったこと - クラウドワークス エンジニアブログ

                                                  この記事は クラウドワークス Advent Calendar 2023 シリーズ1 6日目の記事です。 こんにちは。crowdworks.jp SRE チームの田中(@kangaechu)です。 この記事では crowdworks.jp の SRE チームが2023年にやったことを記載していきます。 やっていることは色々で、まとまりはありませんが、そこら辺はご容赦ください。 2022年の振り返り 2023年にやったこと CircleCI インシデント対応 RundeckのECS化 Railsで使用しているMemcachedをRedisに寄せる 課題 1. Memcachedでは停止時にデータが揮発する 2. Memcached単体ではマルチAZ構成でデータのレプリケーションができない 3. Memcached/Redisともにバージョンアップをしていない 4. MemcachedとRedi

                                                    2023年 crowdworks.jp の SRE チームでやったこと - クラウドワークス エンジニアブログ
                                                  • ポストモーテム運用を支える文化と技術 / Culture and Technology Supporting Postmortem Operations

                                                    https://findy.connpass.com/event/273197/

                                                      ポストモーテム運用を支える文化と技術 / Culture and Technology Supporting Postmortem Operations
                                                    • 1日約2.7兆のリクエストを、高いパフォーマンスと信頼性で処理 LINE Messaging PlatformのSREが高トラフィックを支える

                                                      LINEユーザーとビジネスの価値をつなぐためのSREとは、いったいどんなことをするのか。LINEの7つの領域から9名が登壇し、業務内容や体制、開発における課題、働く個々人のやりがいなどについて話します。加藤亙貴氏は、LINE Messaging PlatformのSREについて紹介しました。 LINE Messaging Platformの構成 加藤亙貴氏:LINE Platform Development Center1 Messaging Platform Development室 Z Partチーム HBase Unitの加藤亙貴です。このセッションでは、分散ストレージリライアビリティエンジニアというポジションにおける、LINEプラットフォームのSREについて紹介します。よろしくお願いします。 今日はこのようなアジェンダに沿ってお話しします。始めに、LINE Messaging Pl

                                                        1日約2.7兆のリクエストを、高いパフォーマンスと信頼性で処理 LINE Messaging PlatformのSREが高トラフィックを支える
                                                      • Database Migrations

                                                        Table of Contents I consider database migrations one of the most annoying problems to deal with during a software engineer’s life. Not only that, if it goes wrong, as it often does, people tend to develop anxiety related to any schema changes. So why is it so annoying? It looks simple at first glance but is deceptively tricky when you start thinking about it. My primary framework of choice is the

                                                          Database Migrations
                                                        • CAMPFIREにSREを導入した話 - Qiita

                                                          こんにちは、CAMPFIREでSREをやっている岩崎です。SRE Advent Calendarということで、この一年でチームにSREを導入した話について書こうと思います。 SRE導入の経緯 自分が社内でSREとして活動を始めたのは一年ほど前に遡ります。当時のCAMPFIREは急速に成長しているベンチャー企業といった感じで、成長のスピードに仕組みが追いついておらず、色々と未整備な状態でした。 インフラは基本的に開発エンジニアが兼任するケースが多く、明確な担当者がいませんでした。また、運用ルールもあまり整備されていませんでした。 チームにSREを導入したというと華々しく聞こえるかもしれませんが、実際にはSRE以前の問題も多く、泥臭いことも結構やりました。私自身SREについて日々勉強している身ですし、SREは魔法の杖でも銀の弾丸でもありませんが、これから同じようにSREを導入しようとしているチ

                                                            CAMPFIREにSREを導入した話 - Qiita
                                                          • Appendix A - Example SLO Document, Google SRE Book

                                                            Service Overview The Example Game Service allows Android and iPhone users to play a game with each other. The app runs on users’ phones, and moves are sent back to the API via a REST API. The data store contains the states of all current and previous games. A score pipeline reads this table and generates up-to-date league tables for today, this week, and all time. League table results are availabl

                                                            • 【SRE-NEXT 2024】内製化を見据えた効果的なSRE支援のアプローチ / SRE support approach

                                                              【SRE-NEXT 2024】内製化を見据えた効果的なSRE支援のアプローチ / SRE support approach

                                                                【SRE-NEXT 2024】内製化を見据えた効果的なSRE支援のアプローチ / SRE support approach
                                                              • SRE文化の導入とプラットフォームの信頼性向上の取り組み | ドクセル

                                                                プロフィール 岡麦 - 2022年度新卒入社 株式会社サイバーエージェン ト/株式会社 CAMへ出向 - 社内プラットフォームの運用・保守をメインとして活 動 @mugiokax #Kubernetes #Istio #Datadog @mugioka

                                                                  SRE文化の導入とプラットフォームの信頼性向上の取り組み | ドクセル
                                                                • SREを成功させるには? 実践のための4ステップとGoogle Cloudの効果的な活用方法をスリーシェイクが解説

                                                                  SRE(Site Reliability Engineering)はシステム管理やIT運用の方法論、あるいはそれを担当するエンジニアを指す。主にGoogleが積極的に提唱し、実践している。SREという単語は浸透してきているものの、実践しようとするとなかなか難しい。Google Cloudが開催したオンラインセミナー「App Modernization OnAir」では、クラウドネイティブな技術に強く、SRE支援で定評のあるスリーシェイク 手塚卓也氏がSREの背景やポイントについて解説した。 スリーシェイク 手塚卓也氏。登壇に加え、SREが必要とされている背景についても語ってくれた クラウド時代の運用保守に求められるSREの考え方とは スリーシェイクは2015年創業。社名はインターネットで接続を確立する手順「three-way handshaking」を由来とし、クラウドネイティブな技術に強

                                                                    SREを成功させるには? 実践のための4ステップとGoogle Cloudの効果的な活用方法をスリーシェイクが解説
                                                                  • DevOps プラクティスを強化したい場合、調査結果は「SRE を試す」 | Google Cloud 公式ブログ

                                                                    ※この投稿は米国時間 2021 年 11 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 信頼性は重要です。アプリケーションにアクセスできない場合、アプリケーションの反応が遅い場合、またはアプリケーションが期待どおりに動作しない場合、ユーザーはアプリケーション提供者が意図した価値を得られません。そのため、Google では、信頼性はどのようなシステムにおいても最も重要な特性であると考えています。信頼性の影響は、最終的な利益に至るまでのあらゆる過程で見られます。ひとたびダウンタイムが発生すると、収益は大幅に低下し、評判やユーザー ロイヤルティは損なわれます。 DevOps Research and Assessment(DORA)プロジェクトの開始当初から、私たちは一貫したエクスペリエンスをユーザーに提供することの重要性を認識していました。その測定には Fo

                                                                      DevOps プラクティスを強化したい場合、調査結果は「SRE を試す」 | Google Cloud 公式ブログ
                                                                    • Enabling SREの現在地点 - Money Forward Developers Blog

                                                                      この記事は Money Forward Engineering 2 Advent Calendar 2023 の記事です。 こんにちは!tatsuo48 です。 マネーフォワードのサービス基盤本部には私が所属する Enabling SRE というチームがあります。 この記事では、以前に紹介された組織に SRE の文化を作り上げていく Enabling SREの内容にも触れながら、Enabling SRE の現在地点と今後の方向性について詳しくお話ししていきます。 Enabling SRE とは Enabling SRE の目的は組織に SRE の文化を作り上げていく Enabling SRE にある通り、以下のギャップを埋めていくことにあります。 各プロダクトの開発チームは、自分たちで開発のサイクルを回し、非機能面も含めて見るべきだと考えている。しかしながら、権限を渡されても非機能面を見て

                                                                        Enabling SREの現在地点 - Money Forward Developers Blog
                                                                      • カケハシSREの現在と今後 - KAKEHASHI Tech Blog

                                                                        この記事は、カケハシアドベントカレンダー2021の5日目の記事です。 SREチームとCorporate Engineeringチームのディレクター兼スクラムマスターをやっています、尾形です。今回はカケハシのSREチームが、今どのようなことに取り組んでいるのか、そして今後どうしていこうと考えているのかについて書いていこうと思います。 そもそもSREとは Site Reliability Engineeringの略で、もともとはGoogle社が提唱したものです。Site Reliability Engineeringというそのままの題名の書籍が、英語版・日本語版それぞれあり、英語版は無償で読むことができます。SREという言葉の提案者によれば、「SREは、ソフトウェアエンジニアに運用チームの設計を依頼した時にできあがる」と述べています。では運用とはなんでしょうか。サーバーやネットワークの構築・設

                                                                          カケハシSREの現在と今後 - KAKEHASHI Tech Blog
                                                                        • サービスの信頼性と開発効率を両立するSRE--GoogleとJCBの取り組み

                                                                          印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 近年は、ITサービスの運用改善の観点からGoogleが提唱する「Site Reliability Engineering」(SRE)への関心が高まりつつある。グーグル・クラウド・ジャパンが8月29日に記者説明会を開き、SREの概要とSREの実践に取り組むジェーシービー(JCB)の現状などを紹介した。 グーグルのシニア デベロッパーリレーションズ エンジニアを務める山口能迪氏によると、SREは、現代のITの開発と運用の間に存在するギャップを埋めていくための実践的な方法論になる。 現在のシステムやアプリケーションでは、ユーザーの利便性を高める機能の開発や改善、追加などを急ピッチで行うと同時に、それらが問題なく動作する信頼性や安定性、安全性を

                                                                            サービスの信頼性と開発効率を両立するSRE--GoogleとJCBの取り組み
                                                                          • ameba-incident-management

                                                                            多すぎる!! 気づくと増えてるAmazon CloudWatch大家族、クラウド初心者にも分かりやすく整理しました

                                                                              ameba-incident-management
                                                                            • 高速な開発とデータ品質のトレードオフを超えるためにできること|望月駿一 / Ubie Discovery

                                                                              このnoteでは、事業立ち上げ期の高速な開発とデータ品質の間に発生するトレードオフに、限られたリソースで対処するために取り組んだ内容について紹介します。 はじめまして。Ubie Discoveryで機械学習エンジニアをやっている望月(@smochi_pub)です。 Ubieに一人目のデータ人材として入社して、BI的なデータ整備・活用から予測アルゴリズムの開発まで幅広く担当してきました。 Ubieでは、アルゴリズムの検証や学習のために、初期からデータを貯めることを意識して取り組んできました。その過程で、高速にUIや仕様が変わっていくプロダクトを抱えつつ、データを「正しく」貯めることの難しさも体験してきました。 高速な開発とデータ品質のトレードオフ開発チームは高速に検証を行うことにフォーカスしているため、UIや仕様もどんどん変わって行きます。実際にユビーでは、toC向けのAI受診相談ユビーでは

                                                                                高速な開発とデータ品質のトレードオフを超えるためにできること|望月駿一 / Ubie Discovery
                                                                              • TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまで

                                                                                  TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまで
                                                                                • SREチームの再立ち上げとミッション、ビジョン、バリューを作った話 | エスマット

                                                                                  SREチームの@biosugar0です。 今回は社内外向けに、スマートショッピングのSREチームの再立ち上げと、 最近定義したミッション、ビジョン、バリュー(MVV)について紹介したいと思います。 結論から書くと、Site Reliability Engineeringを先導する組織としてSREチームを再立ち上げし、以下のMVVを作成しました。 ミッション 日常を革新するプロダクトが走り続けるために、整備された道とガードレールを作り改善していくビジョン 自律して信頼性の高いプロダクトを作り続けられるスマートな開発組織の実現バリュー Bold and FlexibleAutomationOne for AllData DrivenProactiveでは背景などから紹介したいと思います。 これまでのSREチームのミッション実はこれまでも、SREチームのミッションとして以下のようなものを定義して

                                                                                    SREチームの再立ち上げとミッション、ビジョン、バリューを作った話 | エスマット