タグ

SREに関するthaimのブックマーク (12)

  • EnablingとEmbeddedのはざまで | ドクセル

    スライド概要 2024/7/11開催のEmbedded SRE 現場に寄り添うアプローチで話したスライドです。 https://findy.connpass.com/event/323099/

    EnablingとEmbeddedのはざまで | ドクセル
    thaim
    thaim 2024/07/22
  • SRE Technology Map

    サイバーエージェントは創業来、インターネット産業の拡大とともに事業成長を続けてきました。またそれと同時に、SRE領域へも注力してきました。SRE Technology Mapは、サイバーエージェントのSREチームの取り組みを知ってもらうことを期待して製作しています。 Developer Experts of SRE 柘植 翔太 Shota Tsuge サイバーエージェントが提供する幅広い事業サービスの信頼性向上に、私達SREsは日々取り組んでいます。事業領域や事業フェーズ、組織規模が異なれば、SREsのアプローチも違ってきます。それぞれのSRE組織が、様々な課題解決に取り組んだことによって得られた知見や考え方などを多くの人に知ってもらいたいと考え、「SRE Technology Map」を作成しました。 「SRE Technology Map」を通して、少しでもサイバーエージェントに興味を

    SRE Technology Map
    thaim
    thaim 2023/08/04
  • サイボウズ SET (Software Engineer in Test) の紹介 - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、運用部サービス運用部、SET(cybozu.com)所属の山田です。 この記事では、外部発信をしていなかったためあまり存在を知られていなかったであろう、サイボウズの SET チームについて紹介します。 サイボウズ SET は何をするチームなのか ざっくり言うと、募集要項 にもある通り、クラウドサービスの基盤の品質保証エンジニアのチームです。 これが何を意味しているかを、順番にお伝えします。 組織図上の立ち位置 SET の役割を紹介するために、まず組織図上の位置を確認します。 図の文字が小さいのですが、SET は次のような階層に位置する組織です1。 サイボウズ組織図における SET の位置付け 一部を文字でも書き起こすと、以下のようになります: 運用部 ├── サービス運用部 │ ├── SET (cybozu.com) # ここ │ ├── Cloud Platform (

    サイボウズ SET (Software Engineer in Test) の紹介 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 「0回目のポストモーテム」としてのプレモーテムのすすめ - スタディサプリ Product Team Blog

    こんにちは。SREの@kyontanです。スタディサプリのSREチームにジョインしてから初のブログ記事となります。 つい先日、スタディサプリ 中学講座が大幅リニューアルされました。*1 今回は、そのリリースを自信を持ってユーザーの皆様へお届けするために実施した、プレモーテムという取り組みについてご紹介したいと思います。 背景 今回のスタディサプリ 中学講座のリニューアルは、バックエンド、フロントエンド(Web/iOS/Android)の開発をフルスクラッチで行ったため、大規模なリリースとなりました。 すでにユーザーへ提供しているサービスを、段階的にリニューアルされたものへ切り替えていく複雑なリリースということもあり、リリースにあたっては予期しないトラブルが起きる可能性が推測できます。 通常、さまざまなトラブル(障害)が起きた際には、私たちはあらかじめ定めた障害対応フローに沿って対応を行い、

    「0回目のポストモーテム」としてのプレモーテムのすすめ - スタディサプリ Product Team Blog
    thaim
    thaim 2022/03/06
    大幅リニューアルのようなタイミングでないとプレモーテムまで行うのは大変だけど、ここまで準備できればかなり安心できそう
  • 実例で学ぶモニタリング定例のすゝめ | CyberAgent Developers Blog

    この記事はCyberAgent Developers Advent Calendar 2021 11日目の記事です。 みゆっきこと山中勇成(@toriimiyukki)です。普段は、ABEMAで動画配信基盤の開発運用を担当しています。 直近では、配信システムの大規模刷新プロジェクトなどを担当しており、こちらの模様はCA BASE NEXTの発表からアーカイブを閲覧可能です。 ABEMAでは、24時間365日のリニア型配信やVOD配信など、昼夜を問わず落とすことができないミッションクリティカルなサービスを運用しています。サービスを支えるマイクロサービスは、配信分野に限っても20サービスを超えています。 既にPrometheusなど、各種モニタリングソリューションでの監視やアラーティングなども行っていますが、この記事では、あえて手動監視を定期的に行う、モニタリング定例を勧めたいと思います。 な

    実例で学ぶモニタリング定例のすゝめ | CyberAgent Developers Blog
  • LAPRASにおけるSLO運用状況 | LAPRAS株式会社

    こんにちは、SRE(Site Reliability Enginner) の @showwin です。前回の LAPRASインフラチームで避難訓練を行いました の記事に引き継ぎ、今回もSREチームの取り組みの紹介です。 概要2021年2月からSLI, SLOを定めた運用を開始し、約半年が経過しました。導入の背景や、運用開始までの流れ、実際に運用してみて気付いたことをまとめました。 体制としては、SREチームはフルタイム1名、適宜手伝っていただけるメンバー2名で構成されており、アプリケーションエンジニアが9名です。また、サービスの利用者に対してはSLAを提示しておりません。このような状況下において運用されているという前提で読み進めていただけたら幸いです。 SLO導入に至った経緯前任のインフラエンジニア退職により、2020年9月より私がその役割を引き継いだのですが、なんとなくカッコ良さそうと

    LAPRASにおけるSLO運用状況 | LAPRAS株式会社
    thaim
    thaim 2021/10/06
    1人SREでここまでSLI/SLOの設計・運用ができるのすごい(適宜がどの程度かにもよるが)。datadogの時系列を可視化するのにRedashを使うのは、やりたくないけどやはりそうなるか。
  • 週刊ポストモーテム継続への道のり - クラウドワークス エンジニアブログ

    こんにちは、SREチームの @bayashi_ok です。 今回はクラウドワークスで週1回ペースで実施している「週刊ポストモーテム」の取り組みをご紹介していきます。 ポストモーテムとは 週刊ポストモーテムとは 復刻:週刊ポストモーテム 障害対応した人もしくはそのチームの人が発表 障害がなくても開催 ゆるく開催 継続して開催していくメリット みんなの交流の場にもなる 課題を見つけ、なにかをはじめるきっかけになる 他部門の人に知ってもらえる 監視ツールの使い方や見方がわかる 今後の課題 ファシリテーションのローテーション 他部門の人も発表してもらえるようにする 時間帯が合わない ファシリテーションスキルをあげる 最後に ポストモーテムとは まずポストモーテムという単語について少し説明します。 ポストモーテムの意味は各分野でも変わっており、医学の世界では「検死」、プロジェクトマネジメントの世界で

    週刊ポストモーテム継続への道のり - クラウドワークス エンジニアブログ
    thaim
    thaim 2021/03/18
    知見の共有は自分も現在の大きな課題だけど、どうやって興味のない人に興味を持ってもらうのかが難しい。参加強制なし・議題ゆるくだとぐだぐだになってしまう。自分のファシリテーションスキルの問題か。
  • ペパボSREケーススタディ - ロリポップ!レンタルサーバーのSLI/SLOをもとにしたパフォーマンス改善の取り組みを紹介します - Pepabo Tech Portal

    技術部シニアエンジニアリングリードの @tnmt です。 近年ペパボではSRE(Site Reliability Engineering)に取り組んでいます。同じくSREに取り組むエンジニアを読者想定に、今回からいくつかケーススタディとして事例の紹介をしていきたいと思います。ペパボのエンジニアリングの一部理解になれば幸いです。 第一弾として、2019年より行っているロリポップ!レンタルサーバーでのSLI/SLOを元にしたパフォーマンス改善の取り組みをライトに取り上げます。 ロリポップ!レンタルサーバーのSLI/SLO運用 きっかけ そもそものきっかけとしては、2019年当時のサービス利用ユーザー様の一部から「ウェブサーバーのレスポンスが悪い」というフィードバックをいただいていたということでした。 ウェブサーバーのレスポンスタイムはホスティングサービスの品質を左右するものであり、ロリポップ!

    ペパボSREケーススタディ - ロリポップ!レンタルサーバーのSLI/SLOをもとにしたパフォーマンス改善の取り組みを紹介します - Pepabo Tech Portal
    thaim
    thaim 2021/03/12
    SLO計測用のサーバを構築するのはなるほど。ただ特定の1つのサーバの挙動を全体を評価するためのSLOとして利用して問題ないか気になる。
  • SLO策定とアラート設定までの長い道のり

    CloudNative Days Spring 2021 ONLINE でお話したときの資料です https://event.cloudnativedays.jp/cndo2021/talks/201

    SLO策定とアラート設定までの長い道のり
    thaim
    thaim 2021/03/11
    SLOの目的(カスタマージャーニー)からSLI/SLOを決めるのはこういった振り返りを可能にするのでするべきだと思った。バーンレートの表示もよさそう。
  • Books For Site Reliability Engineering

    By: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In this bo

    thaim
    thaim 2020/04/13
  • Web サービスの信頼性を守るための取り組み / jtf-2017-site-reliability-engineering

    #jtf2017 ( http://2017.techfesta.jp/ ) にて『Web サービスの信頼性を守るための取り組み』というタイトルで発表しました。

    Web サービスの信頼性を守るための取り組み / jtf-2017-site-reliability-engineering
    thaim
    thaim 2017/08/27
  • デブサミで垣間見たGoogleのDevOpsの凄さは人的要素の徹底排除にある

    デブサミ2017でGoogleの中井悦司氏が登壇。Googleが考えるDevOpsの理想形についてGoogleパブリッククラウドサービスをベースに解説を行った。 ソフトウェア開発者のためのイベント、デブサミ2017(Developers Summit 2017)が2017年2月16、17日の両日、都内で開催された。今回は多くのセッションから「Googleのインフラ技術から考える理想のDevOps」と題されたセッションを紹介する。これは昨年までレッドハットでエバンジェリストとして活躍していた中井悦司氏が担当したセッションで、Googleの社内システムを通じてDevOpsのあるべき姿を紹介するものだ。 このセッションで中井氏はGoogleが考えるDevOps、つまり開発と運用を連携させる際の注意点を実際にGoogleが提供するパブリッククラウドサービスを例に挙げながら解説を行った。理想のDev

    デブサミで垣間見たGoogleのDevOpsの凄さは人的要素の徹底排除にある
  • 1