タグ

ブックマーク / muziyoshiz.hatenablog.com (3)

  • 2019 年に SRE をしながら考えが変わったこと - 無印吉澤

    今回の記事は年末スペシャルです。 僕が SRE をしながらやってきた取り組みについては、今年も会社のテックブログに色々書かせてもらいました(職場の理解のおかげです。いつも感謝してます)。 ただ、それぞれのブログ記事の間を埋めるストーリーというか、その背景にあることについてはなかなか書く機会がありませんでした。なので、今回はそれらの記事を引っ張りながら、今年 SRE をしながら考えていたことをつらつらと書いていこうと思います。 この1年で考えが大きく変わったこと SRE のあるべき組織体制について、1年前はこう考えていました。 複数の開発チームをまたぐ形で SRE をマトリックス的に配置して、SRE はアプリの開発状況を細かく把握しながら監視・運用すべき ただ、この1年で考えが変わり、いまはこう考えています。 SRE をマトリックス的に配置するのは、確かに、開発速度を一時的に上げるのには効果

    2019 年に SRE をしながら考えが変わったこと - 無印吉澤
    teppeis
    teppeis 2020/04/05
  • SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤

    今回の記事は、最近考えていたことのメモです。 ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。 障害と異常の定義 話の前に、障害(failure)および異常(anomaly)という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。 障害:サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント 異常:サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデント この定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。 これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった(例えば10秒以上になった)場合は

    SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤
    teppeis
    teppeis 2019/02/25
  • Fluentd Meetup 2016 Summer レポート 〜 v0.14 の新機能からプラグイン開発者向け API まで - 無印吉澤

    イベント名:Fluentd Meetup 2016 Summer 開催日時:2016-06-01(月) 会場:イベント&コミュニティスペース dots. 約1年ぶりに開催された Fluentd Meetup に参加してきました。今回は、5月31日にリリースされたメジャーバージョンアップの v0.14 について、ユーザ向けの機能紹介から、プラグイン開発者向けの深い話まで、盛りだくさんの内容でした。自分でプラグインを書くくらい、Fluentd をヘビーに使う人向けのイベントという感じで、どの話も面白かったです。 最近、私は Fluentd を使う機会が全然なかったこともあって、「Fluentd も機能的には枯れてきて、そろそろ新機能もあまりないだろう」と思っていたのですが、まだこんなに改善の余地があったのか……とちょっと驚きました。個人的には、古橋さんの講演で将来の構想として出てきた、Kafk

    Fluentd Meetup 2016 Summer レポート 〜 v0.14 の新機能からプラグイン開発者向け API まで - 無印吉澤
  • 1