タグ

SREに関するkzm1760のブックマーク (11)

  • SREチームでポストモーテムを1年半運用してみた - KAYAC Engineers' Blog

    SREチームの藤原です。今回は、SREチームが主導してポストモーテムを書く取り組みを、社内で1年半ほど運用してみたという話です。 ポストモーテムとは? 「ポストモーテム」(postmortem=事後検証)とは、システムにインシデントが発生したことによる影響、緩和や解決のために取られた行動、インシデントの原因、再発防止策などをまとめた文書です。 カヤックのSREチームは、各メンバーがそれぞれのプロダクトに参加し、他のエンジニアとともに開発と運用を行う、いわゆる「Embedded SRE」という形態を取っています。そのため、SREチームのメンバーでも自分が関わっていないプロダクトで発生したインシデントについては詳しく把握できないことがありました。SRE以外で運用に携わっている、プロダクト専任のサーバーサイドエンジニアにはなおさら困難でした。 また、インシデント発生時に実際に手を動かす人がどうし

    SREチームでポストモーテムを1年半運用してみた - KAYAC Engineers' Blog
    kzm1760
    kzm1760 2022/03/22
    まさにSREという感じだ。“そこで、チェックシートの代わりに設定項目の不備を機械的に検出するツールを内製することにしました。”
  • コンウェイの法則と逆コンウェイの法則から組織構造を考える

    この記事は、「コンウェイの法則」とその逆転の発想の「逆コンウェイの法則」について述べていきます。 組織体制とアーキテクチャの相関関係組織体制はアーキテクチャは相関関係があります。わかりやすい例を出すと下図をご覧ください。 よくありがちなモノリシックな構成です。1つのモジュールにたくさんの機能を格納されており、組織体制としては職能型としてバックエンドチームなどが存在していきます。 これをマイクロサービス化したとします。ただ、組織体制はそのままです。このままだとせっかくServiceA,B,Cと責務を分けたのにそれを管轄しているチームは同じになっていました。つまり、マイクロサービス化のメリットが受けられません。 コンウェイの法則こういった現状を的確に表したのが、「コンウェイの法則」です。 コンウェイの法則とはメルヴィン・コンウェイが提唱した概念です。 システム設計(アーキテクチャ)は、組織構造

    コンウェイの法則と逆コンウェイの法則から組織構造を考える
  • 「インフラ怖い」が生んだSREの業務負担――freeeはどう改善したか

    「インフラ怖い」が生んだSREの業務負担――freeeはどう改善したか:運用コストを減らす3つのポイントとは(1/2 ページ) 番環境にKubernetesを活用するfreeeでは、SREに運用管理業務が集中して疲弊してしまった。そこで、開発チームにサービスの運用管理業務を任せることで改善していったという。その方法とは? 個人事業主や法人向けにSaaSを開発、提供するfreeeは、番環境にAmazon Web Services(AWS)の「Amazon Elastic Compute Cloud」(以下、EC2)と「Amazon EC2 Auto Scaling」(以下、EC2 Auto Scaling)を活用していた。だが、提供するサービスの増加やマイクロサービス化などに伴い、SRE(Site Reliability Engineer)に運用管理業務が集中して疲弊。そこで、開発チーム

    「インフラ怖い」が生んだSREの業務負担――freeeはどう改善したか
  • SREをはじめる際のポイント:モニタリングとサービスレベルの考え方

    近年、何かと話題に上がるSRE(Site Reliability Engineering)。しかし、「自分たちのチーム・組織に関係する話なのかよく分からない」「具体的に何をやればいいの?」といった感想を持つ方は多いのではないでしょうか。連載では、そういった方に向けて、SREの考え方をご紹介します。連載の後半では、SREをいち早く取り入れた企業に導入背景などもインタビュー形式でお伝えする予定です。第三回となる記事では、自社でSREチームの立ち上げを行ってきた筆者の経験をもとに、SREをはじめる際のポイントとして、実践的なモニタリングとサービスレベルの考え方についてお伝えします。 はじめに 株式会社スタディストSREチームの@katsuhisa__です。前回記事「SREをはじめるには、まずどうすればいいですか? SREに必要なスキルと取り組み方」では、SREのはじめかたについて、スキルと取

    SREをはじめる際のポイント:モニタリングとサービスレベルの考え方
    kzm1760
    kzm1760 2019/04/17
    北野さんの説明とても分かりやすい。
  • SREをはじめるには、まずどうすればいいですか? SREに必要なスキルと取り組み方

    近年、何かと話題に上がるSRE(Site Reliability Engineering)。しかし、「自分たちのチーム・組織に関係する話なのかよく分からない」「具体的に何をやればいいの?」といった感想を持つ方は多いのではないでしょうか。連載では、そういった方に向けて、SREの考え方をご紹介します。連載の後半では、SREをいち早く取り入れた企業に導入背景などもインタビュー形式でお伝えする予定です。第2回となる記事では、自社でSREチームの立ち上げを行ってきた筆者の経験をもとに、SREをはじめる際のポイントをご紹介します。 はじめに 株式会社スタディストSREチームの@katsuhisa__です。連載第1回「SREって何? これまでのシステム運用やDevOpsとは何が違うの?」では、SREの概観について皆さんにお伝えしました。今回は、より具体的にSREのはじめかたについてご紹介をします。

    SREをはじめるには、まずどうすればいいですか? SREに必要なスキルと取り組み方
    kzm1760
    kzm1760 2019/01/11
    北野さんの良記事!
  • ランサーズ版SQLチューニングポリシー - ランサーズ(Lancers)エンジニアブログ

    SREチームの金澤です。 Lancers(ランサーズ) Advent Calendar 2018 5日目の記事になります。 昨日は、inamuuさんのElasticCloudからAmazon Elasticsearch Serviceへの移行して良かったこと大変だったことでした。 今年は、Lancers以外のAdvent Calendarも参加させていただいてます。(以下) PHP Advent Calendar 1日目 Visual Studio CodeでPHPのステップ実行 CakePHP Advent Calendar 5日目 CakePHP実装の隙をついてFORCE INDEXを書いていた話 SRE Advent Calendar 5日目 【SRE】成長するサービスとDB負荷との闘い PHP Advent Calendar 7日目(予定) CakePHP Advent Calen

    ランサーズ版SQLチューニングポリシー - ランサーズ(Lancers)エンジニアブログ
    kzm1760
    kzm1760 2018/12/05
  • DevOps実装者としてのSREの存在と役割 / class SRE implements DevOps - Speaker Deck

    JDDStudy #3 (https://techplay.jp/event/687946) で発表した資料です。 DevOpsとSREとの関係性、どのようなことを実践・実装するかの具体例を話しました。

    DevOps実装者としてのSREの存在と役割 / class SRE implements DevOps - Speaker Deck
  • DevOpsとSREの違いとは?

    ビズリーチのSREチームでJenkinsおじさんとマネジメントを担当している阪です。もう先月の話になりますが、サンフランシスコで開催されたGoogle Cloud Next ‘18に参加してきました。今回はその場で何度も聞いた class SRE implements DevOps という考え方を紹介させて頂きます。DevOpsとSREの関係性を理解する上で大変参考になりました。 DevOps、SREという単語が使われるようになって時間が経ちましたが、若干のバズワード感も否めず私自身混乱していました。そのような中でSREの草分け的存在であるGoogleが新たに class SRE implements DevOps というメッセージを発信し始めました。これは「SREはDevOpsというinterfaceの実装である」という意味で、いわゆるプログラミング言語の抽象化機能であるinterfa

    DevOpsとSREの違いとは?
  • SREって何? これまでのシステム運用やDevOpsとは何が違うの?

    近年、何かと話題に上がるSRE(Site Reliability Engineering)。しかし、「自分たちのチーム・組織に関係する話なのかよく分からない」「具体的に何をやればいいの?」といった感想を持つ方は多いのではないでしょうか。連載では、そういった方に向けて、自社でSREチームの立ち上げを行った筆者が、SREの考え方 をご紹介します。また、連載の後半では、SREをいち早く取り入れた企業に導入背景などもインタビュー形式でお伝えする予定です。第一回となる記事では、「SREって何?」「SREをやりたいが、どこからはじめればよいのか分からない」 方に向けて、SREの概観をご紹介します。 はじめに はじめまして。株式会社スタディスト SREチームの@katsuhisa__です。 スタディストでは、システム運用に関わる全般的な業務にはじまり、モニタリングやログ収集基盤の整備などを担当してい

    SREって何? これまでのシステム運用やDevOpsとは何が違うの?
    kzm1760
    kzm1760 2018/09/02
  • Prometheus入門から運用まで徹底解説

    8. データのフォーマット • 大量の収集を行うためにメトリックスのフォーマット は標準化されている必要がある • key/value式のプレーンテキストを返す • スキーマ―を持たないテキストベースのインターフェ イスが追加の障壁を低くする go_gc_duration_seconds{quantile="0"} 8.007600000000001e-05 go_gc_duration_seconds{quantile="0.25"} 0.000297585 go_gc_duration_seconds{quantile="0.5"} 0.00030774400000000004 go_gc_duration_seconds{quantile="0.75"} 0.000317933 go_gc_duration_seconds{quantile="1"} 0.00449756600000

    Prometheus入門から運用まで徹底解説
  • SREサイトリライアビリティエンジニアリングを読もう - yoshidashingo

    セクションナイン の 吉田真吾(@yoshidashingo)です。 SREの原書が出てから早1年半が経ちました。原書はすでにオンラインで無料で読めるようになっています。 Google - Site Reliability Engineering 前回このブログでSREについて書いたのが、原書の出る1ヶ月くらい前ですね。 yoshidashingo.hatenablog.com 国内でもSRE部署の設置が急速に進んでますが、運用部門をSREと看板を掛け替えただけの劣化コピーが大量生産されていることも否めなかったりなかったり。 そもそもSREは、従来のシスアドではなくソフトウェアエンジニアです。そして、開発/運用の分断による必然的な対立関係をインセンティブ設計で統合し、サービスの成長と運用コストが比例しないように切り離すための組織設計であり、そのための技術ノウハウです。 今日は今週末発売さ

    SREサイトリライアビリティエンジニアリングを読もう - yoshidashingo
  • 1