[B! sre][インフラ] t_masudaのブックマーク

SRE 研修

SRE 研修共有ログインお使いのブラウザのバージョンはサポートが終了しました。サポートされているブラウザにアップグレードしてください。閉じるファイル編集表示ツールヘルプユーザー補助機能デバッグ

t_masuda 2023/04/17

リンク

Enterprise Roadmap to SRE - Google - Site Reliability Engineering

Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。本レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。 SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。本レポートは、プロダクトオーナーや信頼性の高いサー

t_masuda 2023/01/26

リンク

SRE_Culture_Organization

Infra Study Meetup #3 「SREのこれまでとこれから」の発表資料です https://forkwell.connpass.com/event/176885/

t_masuda 2020/06/17

リンク

SRE本まとめ（1章イントロダクション） - Qiita

Dev（開発）とOps（運用）を分離することによるOps観点でのメリデメメリット業界的にナレッジが蓄積されており、学習＆真似がしやすい。人材確保しやすい。デメリットマニュアルでの運用がベースとなるため、サービスの規模に比例してチームの規模が大きくなってしまう。開発と運用でバックグラウンドが異なるために衝突しやすい。開発はスピードを素早くリリースしたいという目標に対して、運用は極力問題が起こさないようにしたいという開発とは逆行する目標となってしまう。上記デメリットに対するGoogleのアプローチソフトウェアエンジニアにサービスを運用させることで、自動化をすすめた。GoogleのSREの大半はソフトウェアエンジニアリング＋一連の技術的スキル（主要なものとしてUNIXシステムの理解＆ネットワーク（L1～L3））を持っている。さらに全てのSREに共通するのは、複雑な問題を解決する

t_masuda 2019/12/27

リンク

SREってなんだ？哲学と習慣、そしてツール。

1.SREの哲学と原則 SREは”DevOpsを純粋な形にしたもの”なのか SRE担当VPとして、Matthew FlamingはNew RelicのSREプラクティスを監督しています。SREはおそらく”DevOpsの原則を単一の役割に最も純粋に蒸留したものだ”と彼は考えています。昨年の FutureStack New YorkでGoogleのSREであるLiz Fong-Jones氏はこの考えを広げました。Googleのソフトウェアエンジニアは、運用システムのコードと信頼性に常に責任を負っていますが”SREはさまざまなシステムがどのように連携するか、どのように機能するか、そしてどのように改善されるべきかについて、専門的な理解を深めることに責任がある”と彼女は言いました。SREはソフトウェアエンジニアリングのタスクを引き受ける可能性がありますが、エンジニアリングチームが提供するサービスの

t_masuda 2019/12/17

リンク

クラスタ数530以上、大規模Kubernetesを運用するエンジニア組織の作り方 #k8s

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog みなさんこんにちは。システム統括本部に所属し、プライベートクラウドのKaaS（Kubernetes as a Service）の担当をしている藤江です。私は2007年にヤフーに新卒で入社し、会計システムや社内認証システムなどの業務システムの開発・運用経験を経て、2017年4月から今のKaaS運用業務をしています。現在のプロジェクトではScrumを導入しており、プロダクトオーナーとして働いています。さて、いきなりですが最初に質問です。Kubernetesというツールを知ってますか？　実際に業務で使っていますか？去年の1月に開催されたYahoo! JAPAN Tech Conferenceの登壇で、この質問をした時、会場で手

t_masuda 2019/12/12

リンク

SRE チームの評価に役立つレベル別チェックリスト | Google Cloud 公式ブログ

※この投稿は米国時間 2019 年 1 月 26 日に Google Cloud blog に投稿されたものの抄訳です。このたび、『The Site Reliability Workbook』がウェブサイトで閲覧できるようになりました。Google で生まれ、他の企業にも広まりつつある Site Reliability Engineering（SRE）は、運用上の問題をソフトウェア的に解決するためのエンジニアリングであり、Google におけるエンジニアリングの本質的な部分を占めています。 SRE は考え方であり、一連のプラクティスやメトリクスであり、システムの信頼性を保証するための処方箋でもあります。SRE モデルを構築すれば、サービスの信頼性が向上し、運用コストが下がり、人間が行う作業の価値が高くなって、サービスとチームの双方で大きなメリットが得られます。上述の新しいワークブックは、

t_masuda 2019/02/22

リンク

書評: Site Reliability Engineering

英語だけどぜひ読んでほしい Site Reliability Engineering: How Google Runs Production Systems 参考になったのでご紹介。Googleのインフラ/Ops系技術チームの働き方や考え方を題材にした本です。GoogleのSREについては断片的に知っていたのですが、まとめて読むと違いますね。背景やストーリーがあって、理解しやすいです。共感できるネタがどんどん繰り出されるので、一気読みしました。読み込みが浅いところもあったので、改めて読む予定。以下、印象に残ったこと。 Site Reliability Engineering teamは、インフラ/Ops担当であるが、Unix内部やネットワークなどインフラの知見を持つソフトウェアエンジニアの集団。自分たちのオペレーションを効率的に、迅速に、確実にするために、コードを書く。インシデント対

t_masuda 2017/07/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

sreとインフラに関するt_masudaのブックマーク (8)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス