並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

SREの検索結果1 - 8 件 / 8件

  • 初めてのSREから3年半でやったことの振り返り

    レバテック開発部DevOps推進グループSREチームの蒲生です。 このたびレバテックを退職することになりました。 今までやってきたことを振り返ることで、お前普段なんもやってなかったやろと思っている方への説明とまだまだやらなアカンことあるけど許してねって気持ちを吐き出したいなと思います。 初めてSREとして働き始めてからレバテック事業でのSREチーム結成、活動していくまでで「やってよかったな」と思ったことを紹介していきます。(僕個人ではなくチームでの取り組み) 「こうしておけばよかったな」という懺悔も混ぜておきます。 1. 監視体制作り 初めてのSREだったので定石通り、こちらのピラミッド通りにプラクティスを実践しました。 (O’Reilly Site Reliability Engineeringより) 簡単な状況 監視設定はCloudWatch CDKでリソースのCPUやメモリ、スレッド

      初めてのSREから3年半でやったことの振り返り
    • SLO策定とアラート対応の最適化 DeNA インフラ/SRE MEET UP #9 (2024/11/08 19:00〜)

      イベント概要 SLO策定とアラート対応の最適化 DeNA インフラ/SRE MEET UP #9を開催します! 今回は DeNA のインフラ組織の運用・監視における取り組みをご紹介いたします。 SLI・SLO 策定の過程とアラート対応の効率化・自動化についてお話しします。 DeNA のインフラ組織が SRE をどのように実践しているかに興味がある方はぜひご参加ください! 過去の開催内容 ・SRE MEET UP #1 インフラチームのマネージャーがモバゲークラウド移行の裏側の技術的な工夫や、 南場がAWS Summit Onlineで語っていたクラウドコストチューニングの詳細についてお話しいたしました。 モバゲーをオンプレからクラウドに移行した裏側 ・SRE MEET UP #3 新卒2年目と3年目のエンジニアが、若手社員目線での大規模システムの運用方法と 次世代データベースの検証の過程と

        SLO策定とアラート対応の最適化 DeNA インフラ/SRE MEET UP #9 (2024/11/08 19:00〜)
      • SREで進化するイオン、Terraform・New Relic・PagerDutyを「三種の神器」に

        EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

          SREで進化するイオン、Terraform・New Relic・PagerDutyを「三種の神器」に
        • 2年半のSRE業で行ってきた事の整理

          直近2年半くらいの間にSREチームのリーダー(マネージャー)、ならびにシニアエンジニア(スタッフエンジニア)としてSRE業を行ってきました。 私は過去にSRE専業の経験はなく、この会社にもSREとして入ったはずではなかったのですが、なし崩し的に入社時の取り決めとは異なる職につくことになりました。 とはいえ、今までのキャリアはサーバーサイドエンジニア・バックエンドエンジニア中心ということもあり、アプリケーションの開発にあわせてシステムの構築や監視などもずっとやってきたので、SRE的なスキルは具備していたと思います。Datadogも何気に使いはじめて10年以上経ってます。 2年半の間、客観的に見て大したことはやってきてないですが、自分のこれまでとこれからを見通すための備忘録として、やってきたことをまとめてみたいと思います。 会社 会社は創業10年くらいの中小企業で、BtoC系。ビジネス規模とし

            2年半のSRE業で行ってきた事の整理
          • とあるSREの一日

            とあるSREの一日 こんにちは。あおい(@_a0i)です!株式会社リクルートでSREをやっています。私は心身共に女性ですが、エンジニア業界そしてとりわけSREは女性比率が非常に少ないです。なぜ冒頭から性別の話を出したかというと、今回寄稿するにあたり、「SREが普段どういう仕事をしているか紹介したい」以外にも「女性のSREも存在し、楽しく働いていることを示したい」という二つの目的を掲げてこの記事を書くことに決めたからです。 わざわざ女であると明言していますが、このあと綴られる日常としてマイノリティである大変さや女性身体における苦労のような話は含まれていません。私はチームメンバーに恵まれたこともあって、自分の性別を日常的に気にすることなく楽しく働けています。 じゃあどう働いているの?ということで「とあるSREの一日」と題して、私が一日を通してどんな仕事をしているかご紹介できればと思います! ま

              とあるSREの一日
            • Embedded SREが負荷試験を進める上で学んだ、押さえておくべきポイント

              1. SREと負荷試験 信頼性を向上させるためには、システムの可用性を確保することが重要です。SREの役割は、システムが安定して動作し、予期せぬ障害が発生しないようにすることです。特にデプロイの際には、リスクが伴います。デプロイが複雑になるほど、その影響は大きくなり、障害の規模も拡大する傾向にあります。Testimの記事では、デプロイの複雑性が増すと、手順が増えたり、多くの人が関与することで、問題が発生する確率が高まると述べられています 6 Deployment Risks and How To Mitigate Them プロダクトのリリース前には、動作確認を行うことが必要ですが、負荷試験を実施せずに本番環境に移行してしまうと、予期せぬ障害が発生する可能性があります。これによってサービスが停止することは、ビジネスにとって致命的な損失となり得ます。Microsoftもまた、デプロイに際して

                Embedded SREが負荷試験を進める上で学んだ、押さえておくべきポイント
              • SRE になるために役立つシステム エンジニアリングのシラバスのご紹介 | Google Cloud 公式ブログ

                Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 6 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。 Google のサイト信頼性エンジニア(SRE)が広く用いているシステム エンジニアリングの規範は、信頼性の高いシステム(コード、インフラストラクチャなどあらゆるもの)の作成と実装を通して形成されたものです。システム エンジニアリングの詳細とベスト プラクティスの実践方法を学んでいただけるよう、スタートガイドとなるリソースをいくつかまとめてみました。 The Systems Engineering Side of Site Reliability Engineering(USENIX の論文)システム エンジニアとは

                  SRE になるために役立つシステム エンジニアリングのシラバスのご紹介 | Google Cloud 公式ブログ
                • SREをはじめよう ―個人と組織による信頼性獲得への第一歩~ Forkwell Library#70 (2024/10/17 12:00〜)

                  📝 開催概要 「つぎの一歩が見つかる、気づきと学びの場」 Forkwell Library シリーズ 第70弾 これまで Forkwell のイベントで登壇されたエキスパートの方々は、先達が記した書籍から「気づき」を得て実践し、振り返り、再現性のある「学び」として身に付けていく中で、実績を築いてこられました。 しかし、日々限られた時間の中で知識や情報をアップデートし続けるのはそう簡単ではありません。 Forkwell Library では、著者・訳者・実践者らを登壇者として招き、そんな思いを抱えた開発者の皆さまが「学びのきっかけ」を得られる勉強会を目指します。 第70回目では『SREをはじめよう ―個人と組織による信頼性獲得への第一歩』を取り上げます。 「SREとはどのようなものか」「SREになるには何をすればよいのか」「SREを導入するにはどのように始めればいいのか」「するべきこと、避

                    SREをはじめよう ―個人と組織による信頼性獲得への第一歩~ Forkwell Library#70 (2024/10/17 12:00〜)
                  1