並び順

ブックマーク数

期間指定

  • から
  • まで

481 - 520 件 / 1305件

新着順 人気順

SREの検索結果481 - 520 件 / 1305件

  • 2023 State of DevOps Reportを読んだ - 生涯未熟

    今年もState of DevOps Reportが発表されましたね。ということで、ザザッと全体を読んで気になったところなどピックアップして読み解いてみました。 全文が気になる方は以下からPDFをダウンロードしてみてください。 cloud.google.com 今年の調査主軸 組織の業績 組織は収益だけでなく、顧客のため、さらに広範なコミュニティのために価値を生み出さなければならない チームパフォーマンス アプリケーションまたはサービスチームが価値を創造し、革新し、協力する能力 従業員の幸福 組織やチームが採用する戦略は、従業員にとって有益なものでなければならない。すなわち、燃え尽きを減らし、満足のいく仕事体験を育み、価値あるアウトプット(つまり生産性)を生み出す能力を高めることである。 今回は上記3つの成果達成に対しての調査となった。 調査結果短評 生成的な文化を持つチームは、組織のパフ

      2023 State of DevOps Reportを読んだ - 生涯未熟
    • メルペイSREチームのこれまでとこれから | メルカリエンジニアリング

      こんにちは、メルペイSREでEngineering Managerをしている @tjun です。 この記事は Merpay Tech Openness Month 2021 1日目の記事です。 以前SRE NextでSREチームの話をしたのですが、その後の話を発表するちょうどいい場がなかったのでblogとして書くことにしました。チームとしてはまだまだ道半ばですが、この記事がこれからSREチームを作っていく人の参考になったらいいなと思います。 はじめに SREとは? SREのあり方は、組織やシステムの規模やアーキテクチャ、扱うサービスによって変わると思います。SRE本はもちろん参考にするのですが、Googleのやり方が自分たちの会社でそのまま上手くいくとは限らないので、根っこの部分の考え方や文化を参考にしながら、実践の方法は自分たちの組織に合わせて適用していく必要があります。 SREって何?

        メルペイSREチームのこれまでとこれから | メルカリエンジニアリング
      • 「繋がらない」を解決するステップ - Link and Motivation Developers' Blog

        はじめに こんにちは。 リンクアンドモチベーション SREの篠原です。 普段アプリケーションの開発をしていると、何かしらに繋がらなくて困るといった場面は少なくないと思います。 立ち上げたはずのwebアプリにアクセスできない アプリとDBが疎通できない 〇〇のサーバにSSHできない 現在SREとして、そして過去インフラエンジニア/システム管理者としての経験もある筆者がこのような時にどうやって調査し解決しているかを紹介します。 特に若手の開発者やインフラエンジニアの方々に参考になれば幸いです。 (あくまで個人の考えのため、もしより良い方法などありましたらぜひコメントで教えてください!) L4レベルで疎通できるか確認 役に立つコマンド nc telnet curl OSI参照モデルにおけるL4、トランスポート層での通信ができるかどうかをまず確認します。 誤解を恐れずにいうと具体的にはIPアドレス

          「繋がらない」を解決するステップ - Link and Motivation Developers' Blog
        • クラウド時代も「アプリ」と「基盤」のチーム分けで本当にいいの? - Qiita

          私は新卒のときから10年ほどIT業界、ときには会社を移りながらエンタープライズのSI(System Integration)のさまざまな現場で働いてきましたが、システム開発のチーム編成として「アプリケーション担当」と「インフラ担当」に分かれていることが長らく当たり前でした。 最近はAWSをはじめとするパブリッククラウドの台頭、特に抽象度の高いマネージドサービスの普及によって従来型の分業モデルが理に叶わなくなってきたのでは?と感じることが増えたので、ポエムを書いてみます。 みなさんの案件はどんなチーム分けですか? 私がよくいた「エンタープライズの業務システム開発」はこんなフォーメーションが多かったです。 とある社内向けWebシステムの開発体制 ユーザー企業(発注元の会社スタッフ) アプリケーション担当:通称「業務」。要求定義と仕様調整。事業会社だとコードレビューまではしないところが多い印象

            クラウド時代も「アプリ」と「基盤」のチーム分けで本当にいいの? - Qiita
          • LAPRASにおけるSLO運用状況 | LAPRAS株式会社

            こんにちは、SRE(Site Reliability Enginner) の @showwin です。前回の LAPRASインフラチームで避難訓練を行いました の記事に引き継ぎ、今回もSREチームの取り組みの紹介です。 概要2021年2月からSLI, SLOを定めた運用を開始し、約半年が経過しました。導入の背景や、運用開始までの流れ、実際に運用してみて気付いたことをまとめました。 体制としては、SREチームはフルタイム1名、適宜手伝っていただけるメンバー2名で構成されており、アプリケーションエンジニアが9名です。また、サービスの利用者に対してはSLAを提示しておりません。このような状況下において運用されているという前提で読み進めていただけたら幸いです。 SLO導入に至った経緯前任のインフラエンジニアの退職により、2020年9月より私がその役割を引き継いだのですが、なんとなくカッコ良さそうと

              LAPRASにおけるSLO運用状況 | LAPRAS株式会社
            • 分散トレーシングを使ってパフォーマンス改善をやってみたら、レスポンスタイムを2割近く改善できたお話 - Tabelog Tech Blog

              目次 目次 はじめに そもそもシステム運用改善チームとは何か? なぜアプリAPIのパフォーマンス改善が必要になったのか? どうやって改善箇所を見つけるのか? 分散トレーシングを使って、店舗詳細APIを細かく分析する 計測結果の見方 計測結果から分かったこと 計測結果から見つけたポイントに改善を実施していく コースに紐づくクーポンの取得 口コミを取得する処理と公開画像数のカウント ユーザーごとの公開口コミ投稿数の合計数カウント 全体での改善効果はどうだったか? パフォーマンス改善の影響 ユーザー体験が向上した 今後の食べログ成長に備えたシステム上の余裕ができた 食べログの分散トレーシングを使って改善を実施してみてよかったこと おわりに はじめに こんにちは。食べログ開発本部 ウェブ開発1部 システム運用改善チームの @4palace です。 今回は、私の所属するシステム運用改善チームが食べロ

                分散トレーシングを使ってパフォーマンス改善をやってみたら、レスポンスタイムを2割近く改善できたお話 - Tabelog Tech Blog
              • AndroidチームのIDE警告ゼロへの取り組み - Mirrativ Tech Blog

                こんにちは。エンジニアのshogo4405です。普段は、ミラティブで開発しながら、余暇にOSSのHaishinKit*1*2をつくっています。本稿では、Androidチームで取り組んだAndroid Studioから出てくる警告対応ゼロの仕組み化について紹介します。 はじめに 筆者は、警告は一つ一つ適切なアクションを行うべき対象と考えています。警告一つ一つに意味を持っています。リリース後にクラッシュレポートを見て「あー警告」で指摘されてたという失敗経験もあります。チーム開発においては、IDEの警告ゼロが当然になるように働かきかけています。 Androidチームでは、2021年第3四半期のOKRの一つとして警告ゼロ対応を掲げました。着手当初は278 warnings, 306 weak warnings, 75 infosの警告等がありました。 ゼロ警告へのアプローチ まず初めにチームで実施

                  AndroidチームのIDE警告ゼロへの取り組み - Mirrativ Tech Blog
                • mirage-ecsで各メンバー専用開発サーバーを実現!まちのコインの運用事例を紹介します - KAYAC engineers' blog

                  SREチームの長田です。 突然ですが、 mirage-ecs というツールをご存知でしょうか? 今回はこのツールをまちのコインの開発チームでの使用例をもとに紹介します。 coin.machino.co mirage-ecs を使うと動作確認用のサーバー環境を、サーバーサイドのエンジニアでなくとも自由にいくつでも立ち上げることができるようになります。 「環境」は AWS のECSクラスタ上で起動し、専用のURLが割り当てられ、 認証*1を通過すればどこからでもアクセスできます。 これにより 「クライアントアプリとつなぎ込んで動作確認したいけど、開発環境が空いてないから確認できない」 や、 「プロダクトオーナーに新機能を確認してもらいたいけど、開発環境が空いてないから(以下略)」 といった問題が解消し、 開発と動作確認のサイクルをスピーディーに回すことができるようになります。 mirage-e

                    mirage-ecsで各メンバー専用開発サーバーを実現!まちのコインの運用事例を紹介します - KAYAC engineers' blog
                  • MackerelでSLOとエラーバジェットを運用するためのツール shimesaba - KAYAC engineers' blog

                    この記事はMackerel Advent Calendar 2021の7日目です。 こんにちは、SREチーム所属の@mashiikeです。 皆様はSLOとエラーバジェットという言葉を聞いたことはありますか? サービスの信頼性を保証することを目標するSRE(Site Reliability Engineer/Site Reliability Engineering)の領域に携わってる方なら聞いたことがあると思います。 今回は、SLOとエラーバジェットに関して、Mackerelを用いてサービス/サーバー監視をしている際に便利なツールとして shimesaba というものを作った話をします。 github.com はじめに 本題に入る前に、SLIやSLO, エラーバジェットという言葉について触れておきます。 これらの言葉は、ざっくりと説明すると以下のようになります。 SLI(Service Le

                      MackerelでSLOとエラーバジェットを運用するためのツール shimesaba - KAYAC engineers' blog
                    • 新人こそリファクタリングをやれ! ~マイクロサービスの最古のサービスをリファクタリングした話 ~

                      こんにちは。FiNC Technologies(以下、FiNC)の サーバーサイドエンジニアをしている Ryusei (@ryusei_i_1025)です。 僕はエンジニア1年目なのですが、FiNCのマイクロサービスの最古の巨大サービスのリファクタリングをしてきました。 その内容と学びを一部ご紹介します。 FiNCでは、マイクロサービスを採用しています。 それぞれのチームがサービスのオーナーとなって、担当サービスをプロダクションレディとなるように管理しています。 大抵、マイクロサービスの中には、巨大な神サービスが存在すると思いますが、 僕が所属するチームは、2021年4月にこの最古の巨大サービスの担当になりました。 このサービスは、FiNCの歴史を物語っています。2013年に作られてから、現在までFiNCの中枢機能として、ビジネスを支えてきたサービスです。 現CEOの 南野 (@tente

                        新人こそリファクタリングをやれ! ~マイクロサービスの最古のサービスをリファクタリングした話 ~
                      • Terraform の CI に tfmigrate を導入した話 - スタディサプリ Product Team Blog

                        こんにちは。 SRE の @suzuki-shunsuke です。 Terraform Monorepo の CI にtfmigrate を導入した話を紹介します。 なお、弊社の Terraform Monorepo に関しては過去の記事も参照してください。 Terraform リポジトリをマージして CI/CD を改善した話 - スタディサプリ Product Team Blog Pull Request の terraform plan の実行結果を S3 に保存して安全に apply - スタディサプリ Product Team Blog Terraform の CI/CD を CodeBuild に移行した話 - スタディサプリ Product Team Blog tfmigrate とは tfmigrate とはなにかについては、 tfmigrate の作者様がこちらの記事で詳し

                          Terraform の CI に tfmigrate を導入した話 - スタディサプリ Product Team Blog
                        • pull requestを利用したいい感じのECS feature環境管理方法を考えた - Nealle Developer's Blog

                          はじめに SREチームの大木です。スノボの季節がもう終わりかけており、さみしい限りです。 feature staging環境*( 以下 feature環境 )自体のライフサイクルや管理をどうするか問題、なかなかどこも苦労していると思いますが、その中で今回それなりにいい感じの回答を出せたと思うので共有したいと思います。 *呼び方はpre-staging環境、pull request環境、テスト環境などいろいろありそうですが、私たちはfeature環境と呼んでいます。 どこが「いい感じ」なのかというと、PRのラベル付与によって環境の生成/削除を制御できる点です。PR画面上で楽々とfeature環境の管理ができたり、PR一覧からどのブランチでfeature環境が立っているかが分かりやすくなります。 feature環境について feature環境を当社のプロダクトであるPark Directの開発

                            pull requestを利用したいい感じのECS feature環境管理方法を考えた - Nealle Developer's Blog
                          • SRE として3年半働いてみて - ymyzk’s blog

                            この記事は CAMPHOR- Advent Calendar 2021 23日目の記事です.22日目の記事は @sanposhiho の「Pod Topology Spread Constraintsのすべて」でした. この記事では,CAMPHOR- 卒業後に Site Reliability Engineer (サイト信頼性エンジニア・SRE) として働いてきた経験をもとに,SRE とはどういう仕事をしているのか,どのようなスキルを利用しているかなどを紹介します.これまで対外的に SRE について文章を書いたことはあまりなかったのですが,SRE の役割はまだまだ広く知られておらず「SRE って結局なに?」と思っている人も多くいるように感じるので,せっかくの機会を生かして自分の経験を書いてみようと思います. 対象読者 主に SRE について興味のある学生やジュニアなエンジニアの方を想定して

                              SRE として3年半働いてみて - ymyzk’s blog
                            • GKEとEKS

                              GKEとEKS Kubernetes meetup 〜オンプレ?クラウド?事例共有会〜 2020/10/08 株式会社ZOZOテクノロジーズ SRE部 MLOps、プラットフォームSRE リーダー、CSIRT、SRE スペシャリスト 瀬尾 直利 Copyright © ZOZO Technologies, Inc.

                                GKEとEKS
                              • はてなブックマークで利用しているCloudFrontのAWSアカウントを移行した - Hatena Developer Blog

                                こんにちは、id:cohalzです。2023年4月に実施したはてなブックマークのメンテナンスではCloudFrontを別のAWSアカウントに移行しました。 この記事ではCloudFrontを別のAWSアカウントに移行した背景とどのように移行したのかを説明します。 はてなブックマークのインフラのこれまで 移行したいモチベーションが出てきた理由 切り替えで設定が変わらないように気を付ける キャッシュポリシーに移行する 移行方法について検討する AWS CLIでCloudFrontを移行する手順を作成する アクセスログを配送する部分も移行する まとめ はてなブックマークのインフラのこれまで はてなブックマークのインフラはこのようにCloudFrontと関連リソースだけ別のAWSアカウントで利用していました。 移行前 この状況になっていた経緯をまず説明すると、はてなブックマークでは2018年からオ

                                  はてなブックマークで利用しているCloudFrontのAWSアカウントを移行した - Hatena Developer Blog
                                • Misocaのサービスレベル目標 (SLO) を設定するまでの道のり - 弥生開発者ブログ

                                  Misoca開発メンバー/SREチームの id:mizukmb です。今年も最高気温40度超えの名古屋の夏を乗り切る事ができて安心しています。 今回はSREチームとしてMisocaのパフォーマンス計測を行い、開発向けのサービスレベル目標 (以下、SLO) を設定した話をしようと思います。 実際に計測をはじめる前に すべてを計測できることは理想ではありますが、闇雲に計測するだけではどこを改善するべきか見えにくくなってしまいます。 そこで、実際に計測をはじめる前にSREとしてどこに着目するべきなのかをSREチーム内で認識合わせをするためにSRE本読書会を実施しました。 SRE本読書会の実施 SRE本とは SRE サイトリライアビリティエンジニアリング――Googleの信頼性を支えるエンジニアリングチーム の事です。 Google - Site Reliability Engineering で

                                    Misocaのサービスレベル目標 (SLO) を設定するまでの道のり - 弥生開発者ブログ
                                  • AWSコストを全体で43.75%削減するためのコストモニタリング技術 | ドクセル

                                    00 自己紹介 安藤裕紀 / あんどぅ 株式会社ユーザベース NewsPicks事業 SRE Unit Leader SREチームのマネージャー 兼 テックリード 特技:AWSコスト削減、障害対応を愚直に100本ノックすること 座右の銘: 「水滴石を穿つ」「神は細部に宿る」 「質は量から生まれる。逆はない」 ©Uzabase, Inc. All Rights Reserved.

                                      AWSコストを全体で43.75%削減するためのコストモニタリング技術 | ドクセル
                                    • PubSub/Redisを用いたGoによるスケーラブルなworkerの構築と運用 | メルカリエンジニアリング

                                      こんにちは。メルカリのNotification teamでソフトウェアエンジニアをしている@naruseです。 この記事は、Mercari Advent Calendar 2021 の19日目の記事です。 はじめに 私が所属しているBusiness Platform Notification teamでは、2つの役割で通知周りの基盤を担当しています。 1つ目はアプリケーションとしての役割の通知です。メルカリでは、アプリ内でのお知らせや個別メッセージ、やることリストなどを提供しています。私たちはそれらの膨大なデータを管理し、作成や取得のリクエストに応えています。これらの膨大なデータに対する私たちのチームの過去の記事として、昨年のAdvent calenderの一部である本番稼働中の Spanner にダウンタイム無しに57時間かけてインデックスを追加して得た知見をぜひご覧ください。 2つ目は

                                        PubSub/Redisを用いたGoによるスケーラブルなworkerの構築と運用 | メルカリエンジニアリング
                                      • モダンでフルサイクルな金融プロダクト開発 / Modern full-cycle financial product development

                                        モダンでフルサイクルな金融プロダクト開発 / Modern full-cycle financial product development

                                          モダンでフルサイクルな金融プロダクト開発 / Modern full-cycle financial product development
                                        • How to start SRE in a small team, all by yourself. - Money Forward Developers Blog

                                          「少人数のチームにて、一人からSREを始めるにはどうすればいいのか?」 2021年の10月からHR領域(マネーフォワードクラウド勤怠)でSRE組織を立ち上げているVTRyoです。 もっとサービスをより安定させたい!より向上したいといった話から、SREという役割を設置するケースは増えています。 しかし、SREという概念のなかったチームや部署で始めるにはどこから手をつければよいのでしょう。 SREの基本について記されたSRE サイトリライアビリティエンジニアリング――Googleの信頼性を支えるエンジニアリングチームには多くの原則が書かれていますが、同じことを丸々取り組むには前提や環境が違う部分も出てきます(SREのプラクティスを知るにはよい参考資料であることは間違いありません)。 というわけでこの記事では、以下の部分に答えられるよう進めていきます。 SRE本を読んだが、実際の組織やチームでは

                                            How to start SRE in a small team, all by yourself. - Money Forward Developers Blog
                                          • SREチームのセキュリティインシデントゲームデー - メドピア開発者ブログ

                                            CTO室SREの侘美です。最近はM5Stackを嗜んでおります。 ここ半年ほど、MedPeerグループ全体のAWSのセキュリティ改善に力を入れてきました。 その中で、AWS Well-Architectedのセキュリティのベストプラクティスにも記載があるゲームデーを実施したところ、とても学びが多かったので本記事にまとめました。 ゲームデーとは? Well-Architectedには以下のように記載されています。 ゲームデーを実施する ゲームデーを実施する: さまざまな脅威について、インシデント対応イベントのシミュレーション (ゲームデー) を実施します。このゲームデーには、主要なスタッフや管理者を参加させてください。 教訓から学ぶ: ゲームデーの実行から得られた教訓は、プロセスを改善するためのフィードバックに含まれている必要があります。 出典: https://wa.aws.amazon.

                                              SREチームのセキュリティインシデントゲームデー - メドピア開発者ブログ
                                            • プラットフォームチームが実現したいこと - HRBrain Blog

                                              HRBrainプラットフォームチームのテックリードのhidetatzです。札幌に住んでいるんですが雪がヤバいです。 このブログでは、HRBrainのプラットフォームチームとはどういうチームで、普段何をしていて、何を考えているのかを紹介します。社内のメンバーに知ってもらいたくて書いている部分もありますが、私達のことをもっと知ってもらうために、そして私達の仲間を増やすためにこの記事を書くことにしました。この記事を読んでもらって、私達の仕事の面白さを知ってもらい、話してみたいと思ってもらえたらいいなと思います。 プラットフォームチームは「インフラチーム」「DevOpsチーム」「SREチーム」のいずれでもありません。私達のチームが向き合っているプラットフォームエンジニアリングというタームは比較的新しいもので、よく説明されている記事は (特に日本語では) 筆者はあまり見かけません。この記事では、プラ

                                                プラットフォームチームが実現したいこと - HRBrain Blog
                                              • SREの求人票をGitHubを使ってチームで見直してみた - BASEプロダクトチームブログ

                                                こんにちは!! BASE株式会社 SREチーム エンジニアリングマネージャの富塚(@tomy103rider)です。 2021年3月現在、SREチームは私含め3名で、最近私は成長するサービスを一緒に支えていって頂けるSREの仲間を求めて採用などをメインに業務を行っています。 はじめに 突然ですが、皆さんのチームの求人票は誰が作っていますか?そしてそれを読んだことはありますか? 思い出してみると元々のSREチームの求人票は私と前のマネージャが考えて作ったものでした。 その内容を改めて確認すると、 見ていただいている方に現在のSREチームの思いが伝わる内容だろうか? チームのメンバー自身も迎えたい仲間のイメージができる内容だろうか? 採用に関わるCTOにもそのイメージは共有できているだろうか? などと感じる部分が出てきたため、このタイミングで見直してアップデートすることにしました。 今回はこの

                                                  SREの求人票をGitHubを使ってチームで見直してみた - BASEプロダクトチームブログ
                                                • 10X に SRE Team ができるまでとこれから - 10X Product Blog

                                                  SRE Team の @babarot です。今年1月に入社してからおよそ 3 ヶ月が経ちました。 この度、株式会社10X (以下、10X) は、2022年5月14日、15日に開催される SRE NEXT 2022 に、SILVER スポンサーとして参加します。実は 10X では今年1月に SRE Team が発足しました。これまで開発において求められていたことに新たに "Reliability" という観点が加わり、それが今後強く必要になってくるためです。このタイミングに合わせて、10X に SRE Team ができるまでとチームのこれからについて紹介します。 現在、10X では開発不要でネットスーパーアプリを立ち上げられるシステムである Stailer を開発し、バックエンドとそれにつなげるアプリ (iOS と Android) を提供しています。 Stailer をリリースして以降、

                                                    10X に SRE Team ができるまでとこれから - 10X Product Blog
                                                  • AWS Security Hubコントロールの有効無効をコード管理するのは予想のN倍大変だった話 - ANDPAD Tech Blog

                                                    こんにちは。SREチームの吉澤です。2023年3月にアンドパッドに入社し、最近は主にセキュリティ関係の改善に取り組んでいます。 SREの経験としては、アンドパッドへの入社前からSREとして働いており、雑誌に寄稿したり、個人ブログを書いたり、SREの勉強会に運営スタッフとして長年参加したりしてきました。9/29(金)開催のSRE NEXT 2023にも、運営スタッフとして参加しています。SRE NEXT 2023には、アンドパッドもブロンズスポンサーとして参加しています! そこで今回は、SRE NEXT 2023のCFPに応募したネタ(今回、競争率すごく高かったんですよね……)を育てて、1つ記事を書いてみました。CFP落選供養スペシャルです。 背景 AWS Security Hubとは アンドパッドでのSecurity Hubの活用 目的 実現方法 課題 Security Hubのコントロー

                                                      AWS Security Hubコントロールの有効無効をコード管理するのは予想のN倍大変だった話 - ANDPAD Tech Blog
                                                    • kubernetesをキャッチアップし、知識を蓄積していく | はてなで働く masayosu にアンケート [#20] - Hatena Developer Blog

                                                      はてなで働くエンジニアにアンケートシリーズ第20回は、サービスプラットフォームチームのSRE、id:masayosuに話を聞きました。 社内に「まさよし」が複数いて紛らわしい SREメンバーでEKSとGKEの2つをキャッチアップ 自分の中にkubernetesの知識が蓄積されていった ここまでオープンな会社はこれまで経験したことがなかった 社内に「まさよし」が複数いて紛らわしい ── Q1. はてなidとその由来を教えてください TwitterのIDが@masayosuなので、はてなidもTwitterと同じ文字列を利用しています。由来は本名が「まさよし」なので。 はてな社内には「まさよし」という名前やはてなidを持つ人が3〜4人くらい存在しているので、紛らわしい状態になっています。 ── Q2. いつどんなきっかけで入社しましたか? 2020年7月に、id:hayajo_77さんの紹介で

                                                        kubernetesをキャッチアップし、知識を蓄積していく | はてなで働く masayosu にアンケート [#20] - Hatena Developer Blog
                                                      • Platform Engineering と SRE の門

                                                        Platform Engineering とSREの門 というタイトルで登壇しました。入門のタイポではありません。 イベント名: Platform Engineering Kaigi 2024 イベントURL:https://www.cnia.io/pek2024/ 登壇ブログ:『Plat…

                                                          Platform Engineering と SRE の門
                                                        • https://sre-next.dev/

                                                            https://sre-next.dev/
                                                          • 【ArgoCD🐙】ArgoCDのマイクロサービスアーキテクチャと自動デプロイの仕組み - 好きな技術を布教したい 😗

                                                            この記事から得られる知識 この記事を読むと、以下を "完全に理解" できます✌️ ArgoCDのアーキテクチャを構成するコンポーネントの種類について ArgoCDがマニフェストを自動デプロイする仕組みについて この記事から得られる知識 01. はじめに 02. 概要 アーキテクチャ レイヤー コンポーネント 仕組み (1) repo-serverによるクローン取得 (2) application-controllerによるマニフェスト取得 (3) application-controllerによるCluster確認 (4) application-controllerによる処理結果保管 (5) argocd-serverによるキャッシュ取得 (6) 管理者のログイン (7) IDプロバイダーへの認証フェーズ委譲 (8) dex-serverによる認証リクエスト送信 (9) argocd-s

                                                              【ArgoCD🐙】ArgoCDのマイクロサービスアーキテクチャと自動デプロイの仕組み - 好きな技術を布教したい 😗
                                                            • 「春のSREまつり2024 〜OpenTelemetry活用すべて見せます〜」を開催しました - Pepabo Tech Portal

                                                              新緑の候、どこまでも澄んだ空気が視界を広げるように、システムの透明性が深い洞察を可能にしていることと存じます。技術部プラットフォームグループのそめやポチです。 2024年5月9日に、「Pepabo Tech Conference #22 春のSREまつり」と題した技術イベントを開催しました。「SREまつり」とは、ペパボのエンジニアたちがSREについての知見を発信することで、社外のSREコミュニティとの交流を図るイベントです。 昨年の春のSREまつり、夏のSREまつりに続いて、3回目の開催となりました。恒例イベントとして社内外に定着しつつあると感じています。 イベントは、物理会場とライブ配信会場の2つの会場で開催しました。物理会場は、シナジーカフェGMO Yours・フクラスという、GMOインターネットグループのカフェスペースを使用しました。ライブ配信会場は、YouTube Liveを使用し

                                                                「春のSREまつり2024 〜OpenTelemetry活用すべて見せます〜」を開催しました - Pepabo Tech Portal
                                                              • 安定・安価なECS auto scalingを目指して / SRE Lounge #11

                                                                https://sre-lounge.connpass.com/event/151290/ の発表資料です

                                                                  安定・安価なECS auto scalingを目指して / SRE Lounge #11
                                                                • 僕は CREing:ソフトウェアエンジニアにカスタマーサクセスを任せたときに起こるもの、を Autify で実現したいと思っている - えいのうにっき

                                                                  この文章で出てくる用語たち: SRE Site Reliability Engineering / Engineer 。 前者のことを指して SREing, 後者のことを指して SREs, と表記することもある サイトリライアビリティエンジニアリング - Wikipedia CRE Customer Reliability Engineering / Engineer 。 「CRE」という言葉が使われるときはだいたい後者な気がする。前者を指してこの言葉が使われてるのはあんまり見ないな、という印象がある 僕自身、前職でサーバーモニタリングSaaSに携わっていたこともあって「SRE」については最低限の知識というか、その概念の理解はあるつもり。でも最近目にしたこちらの記事を読んで、ああそうだった、と認識を新たにした表現があった。以下は、この記事の中の「そもそもSREとは何なのか」という問を受けて

                                                                    僕は CREing:ソフトウェアエンジニアにカスタマーサクセスを任せたときに起こるもの、を Autify で実現したいと思っている - えいのうにっき
                                                                  • 燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty

                                                                    DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対

                                                                      燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty
                                                                    • 【10分で確認】インフラ起因のシステム障害で焦らないための監視系コマンド集 - Qiita

                                                                      はじめに ベンチャー企業や立ち上がって間もない開発組織の場合、事業の成長スピードに対して、インフラ/SREエンジニアへのリソース不足が発生します。 スピード重視の結果、監視設計が不十分なままプロダクトがリリースされることも少なくないため、インフラに強いベテランの方のみが障害対応に当たらざるを得ず、周囲はただ応援するといった形もあるのではないでしょうか。 いざというとき、「アプリケーション起因じゃなければ、私は何もわからない...」とならないために、非インフラ/SREエンジニアでも最低限覚えておきたい障害発生時に役立つ監視系のコマンドをまとめてみようと思います。 本記事で想定している読者は以下の通りです。 インフラ関連の障害時に、問題の切り分けを行うためのコマンドが知りたい人 監視系コマンドを実行できる環境構築をサクッと作って動かしながら学びたい人 非インフラ/SREエンジニアでインフラ起因

                                                                        【10分で確認】インフラ起因のシステム障害で焦らないための監視系コマンド集 - Qiita
                                                                      • SREを以てセキュリティエンジニアリングを制す / SRE, Security Engineering, and You

                                                                        SRE NEXT 2023 のスポンサーセッション (20min) で使用したスライドです。 --- 概要: システムやソフトウェアの信頼性(Reliability)とセキュリティは多くの共通項を持つ概念です。本セッションでは、信頼性に主な関心を置いた技術体系であるSREを、セキュリティリスクの健全な管理のための技術体系として活用する方法を考察します。具体的にはSLO/SLI/エラーバジェット的発想に基づくセキュリティリスク管理や、セキュリティに関するソフトウェアエンジニアリング技法について、具体的な事例も交えながら論じます。 セキュリティ領域は技芸(Art)的解決が必要な課題領域も未だ多く、Engineering的体系は進化の途上にあります。SREというプラクティスを土台としてセキュリティ課題の解決を検討することは、SREに慣れ親しんだ(あるいは興味を持った)技術者の集まる本カンファレン

                                                                          SREを以てセキュリティエンジニアリングを制す / SRE, Security Engineering, and You
                                                                        • データエンジニアリングにおける人事評価基準 - 下町柚子黄昏記 by @yuzutas0

                                                                          じゆうちょう Advent Calendar 2019 18日目の記事です。 概要 データエンジニアリングという業務を扱うにあたって、どのように人事評価を実施するか。 本稿では実践可能なレベルで「評価基準」の例を提示します。 もくじ 概要 もくじ 背景 注意点 本題: 人事評価の設定例 1. マイルストーン(計画) 2. QCDS(構築) 3. サービスレベル(運用) 4. 利益目標(企画) まとめ Appendix 前提1: 本稿のスコープ = 査定でボーナスが上下するような状況 前提2: 被評価者がコントロールできない事象に対してはフォローする 応用編1: 「データ基盤」という固有トピックにおける技術や案件の評価について 応用編2: 「データの民主化」の目標設定をどうするか おわりに 背景 データエンジニアリング業務に伴う「人事」(採用・アサイン・育成・評価)について質問を受けることが

                                                                            データエンジニアリングにおける人事評価基準 - 下町柚子黄昏記 by @yuzutas0
                                                                          • 2023年もSRE再考と叫びなさい‼️

                                                                            2023年もSRE再考と叫びなさい‼️ SREの跡を求めず SREの求めたるところを求めよ というタイトルで登壇してきました 2023年3月3日 エンジニア文化祭 2023 https://forkwell.connpass.com/event/272596/ 『2023年もSRE再考と叫びなさい!!』というタイトルで登壇しました - じゃあ、おうちで学べる https://syu-m-5151.hatenablog.com/entry/2023/03/03/105049

                                                                              2023年もSRE再考と叫びなさい‼️
                                                                            • Introducing Dispatch

                                                                              By Kevin Glisson, Marc Vilanova, Forest Monsen Netflix is pleased to announce the open-source release of our crisis management orchestration framework: Dispatch!Okay, but what is Dispatch? Put simply, Dispatch is: All of the ad-hoc things you’re doing to manage incidents today, done for you, and a bunch of other things you should’ve been doing, but have not had the time! Dispatch helps us effectiv

                                                                                Introducing Dispatch
                                                                              • SREに触れて「いろいろやろうぜ」のモードになった - 生涯未熟

                                                                                SRE界隈の隅っこでワチャワチャやっているしょっさんです。 今色々やっているコミュニティ活動についてのお話を書き留めておきたいなと思ったので、ここにパパッと書いていきます。 今までについて 今までのコミュニティ活動の関わりについては以下のしずかなインターネットの記事として書きました。 sizu.me そんなこんなで「ゆるSRE勉強会」の運営に関わらせていただいているのですが、せっかく再びコミュニティ活動始めたなら色々やってみっか!ってことで色々走らせてみました。 SRE Magazine SREに関する記事を探すと様々なところに散らばっており、SRE Weeklyみたいな集約された場所があると面白いよな〜ということでエイヤの精神でやってみました。 sre-magazine.net 「るびま」を参考に構成しているWebマガジンなのですが、最近第1号が発刊することができました。で、始めるにあた

                                                                                  SREに触れて「いろいろやろうぜ」のモードになった - 生涯未熟
                                                                                • Performance Schemaの仕組みと活用法の紹介 - freee Developers Hub

                                                                                  メリークリスマス!!freee Developers Advent Calendar 2022 25日目担当のid:shallow1729です!昨日はtdtdsさんでfreee特有の風土病:エンジニアの症例と寛解についてでした! 僕からはMySQLのPerformance Schemaという機能の仕組みの解説とfreeeでの活用についての紹介をします。 前置き Performance SchemaはMySQLで実行されるトランザクションやクエリなどの実行時の様々な情報を取得してくれる機能です。特に面白いのは後で説明するようにstageやwaitなどのMySQLの実装レベルでのモニタリングを提供してくれているところで、これを使う事でどのあたりがボトルネックになっているかについて実際のProduction環境のワークロードで分析できる点です。また、最近だと例えばAWSのRDSを用いているとPe

                                                                                    Performance Schemaの仕組みと活用法の紹介 - freee Developers Hub