第3木曜LT会というイベントの「SREどうでしょう」という会でSLOはいつ決めたらよいか?自分なりに考えた結果を発表したLT資料 https://metaps.connpass.com/event/313921/
Google Cloud Partner Top Engineer 2024を頂いた者です. 仕事はエンジニア系のコンサルとSRE, 趣味(と前職以前の仕事)で機械学習や生成AI*1をやっとります. この記事は当ブログの名物かつ人気シリーズである, 主に技術書を中心としたオススメ書籍(元々はPython本メイン)の紹介エントリーです. ※去年の記事はこちら. 本年のこのエントリーは, 2024年の推し本4冊 CloudおよびSREな4冊 いい感じな技術書2冊 この三本立て(+私の完全なる趣味チョイスで数冊)でご紹介できればと思います. というわけで, 本年のラインナップは以下の通りです. この記事の著者 2024年の推し技術書10冊 特に推したい4冊 クラウドストラテジー 世界一流エンジニアの思考法 仕事に役立つ新・必修科目「情報Ⅰ」 キャリアづくりの教科書 CloudおよびSREな4冊
At Airplane, we collect observability data from our own systems as well as remote “agents” that are running in our customers’ infrastructure. The associated outputs, which include the standard “three pillars of observability” (logs, metrics, and traces) are essential for us to monitor our infrastructure and also help customers debug problems in theirs. Over the last year, we’ve made a concerted ef
Accelerate 第1版(以下単にAccelerateと呼ぶ)はDevOpsに関するトレンドを抑えるうえで基本となる本なのですが、もはや古く最新の知見が書いてあるとは言えません。State of DevOpsは毎年アップデートされているのですがコンテキストを丁寧には抑えてくれず、背景を含めて読み解くのが難しいという印象があります。どうもAccelerate 第2版がそろそろ出るらしいんですが、とりあえず現時点での自分の理解をまとめておきます。 端的に言うと、これらは安定したソフトウェアを高速に顧客に提供できる良い開発チームの特徴を踏まえ、皆さんの組織で再現可能にするための研究であり指針です。当然「良い開発チームがあれば常に良い問題解決ができる」というわけでも「ここで定義された良さが組織問わず普遍的である」というわけでもありませんが、顧客の課題に立ち向かうための組織設計において良い仮説を
Service Overview The Example Game Service allows Android and iPhone users to play a game with each other. The app runs on users’ phones, and moves are sent back to the API via a REST API. The data store contains the states of all current and previous games. A score pipeline reads this table and generates up-to-date league tables for today, this week, and all time. League table results are availabl
※この投稿は米国時間 2022 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。 『Site Reliability Engineering: How Google Runs Production Systems』(O'Reilly Media)を出版してから、早いものでもう 6 年が経ちました。この本の人気が今でも続いていることに恐縮すると同時に、大変嬉しく思っております。SRE ブックがベストセラーになった後、Google が 2 冊の関連書籍『The Site Reliability Workbook』と『Building Secure and Reliable Systems』を出版したことをすでにご存じかもしれません。この 3 冊の本はすべて、sre.google/books で無料でお読みいただけます。 Google SRE は 2016
Implementing SLOs By Steven Thurgood and David Ferguson with Alex Hidalgo and Betsy Beyer Service level objectives (SLOs) specify a target level for the reliability of your service. Because SLOs are key to making data-driven decisions about reliability, they’re at the core of SRE practices. In many ways, this is the most important chapter in this book. Once you’re equipped with a few guidelines, s
はじめに こんにちは、Google Cloudのオブザーバビリティ担当者です。このたび私が翻訳ならびに監修として関わった「SLO サービスレベル目標」という本がオライリー・ジャパン社より出版されました。本日より書店ならびに各社オンラインストアでご購入いただけます。 SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド 作者:Alex HidalgoオライリージャパンAmazon 電子書籍版についてはオライリー・ジャパンのサイトよりePub、PDFの各種フォーマットにてご購入いただけます。 www.oreilly.co.jp SLOがなぜ重要なのか まず本書の意義について解説する前に、サービスレベル目標(Service Level Objective; SLO)がなぜ重要なのかについて改めてお伝えしたいと思います。 サイトリライアビリティエンジニアリング(SRE)に
最近知った興味深いPodcast e34.fm で紹介されていたので興味を持って読んでみた本「Docs for Developers: An Engineer’s Field Guide to Technical Writing」に関するメモ。 2023/3追記:翻訳されたようだ。ユーザーの問題解決とプロダクトの成功を導く エンジニアのためのドキュメントライティング e34.fmwww.oreilly.com この記事の目次 「Docs for Developers」はどんな本なのか 全般的な感想 各章に関する覚え書き Front Matter Chap 1. Understanding your audience Chap 2. Planning your documentation Chap 3. Drafting documentation Chap 4. Editing docum
2023.02.07 技術記事 Amazon ElastiCache / Google Cloud Memorystore スペック変更時のダウンタイム比較 [DeNA インフラ SRE] by Tomonori Hirata #infrastructure #ElastiCache #Memorystore #AWS #GCP #technical-verification はじめに こんにちは。インフラエンジニアの平田です。 IT 基盤部に所属し、全世界向けのゲームタイトルのインフラ運用を担当しています。 今回は、マネージドのインメモリキャッシューサービスである Amazon ElastiCache for Redis (以降 ElastiCache) と Google Cloud Memorystore for Redis (以降 Memorystore) のそれぞれについて、スペッ
こんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。 私は現在、Embedded SRE として サーチインフラチームに入り活動しています。このサーチインフラチームは、Elasticsearchを使用した検索基盤を管理し、様々なマイクロサービスに検索機能を提供するチームです。この検索基盤は非常に巨大なプラットフォームで、メルカリ全体のマシンリソースの高い割合を占めており、メルカリの検索を支える非常に重要なものです。私の Embedded SRE としてのミッションは検索基盤の信頼性の向上と自動化を推進することです。 今回は、メルカリの検索基盤で利用している Elasticsearch における運用のノウハウを紹介したいと思います。 Elasticsearch とは Elasticsearch は、Elastic社が開発する Apache Lucen
※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercari" の一環で書かれています。 はじめに こんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。 私は Embedded SRE としてメルカリJPの検索に関連するマイクロサービスを提供している サーチインフラチームに入り、サービスの信頼性向上やインフラ周りの自動化に従事しています。今回は、メルカリの商品検索の応答性能を維持するための Benchmarking Automation の取り組みについて紹介したいと思います。 検索基盤のアーキテクチャ まず、検索基盤のアーキテクチャについて簡単に説明します。主要なコンポーネントに絞ってシンプルに表現したものが以下の図になります。 各コンポー
31st January 2022 Release notes are an important part of the open source process. I’ve been thinking about these a lot recently, and I’ve assembled some thoughts on how to do a better job with them. Write release notes. Seriously—if you want people to take advantage of the work you have been doing to improve your projects, you need to tell them about it! Include the date. The date matters a lot, b
Google’s State of DevOps 2021 Report: What SREs Need to Know The four key takeaways for SREs from Google’s State of DevOps 2021 report SRE and DevOps deliver the best value when used together. Culture is key to avoiding burnout. You need the cloud more than ever. These are among the main takeaways from Google Cloud’s latest Accelerate State of DevOps report, which examines how companies are using
以前Pull Requestから社内全チームの開発パフォーマンス指標を可視化し、開発チーム改善に活かそう - Hatena Developer Blogの記事で、開発パフォーマンスを可視化する話を書いた。その後、バリューストリームマップを作り開発フローの課題を洗い出して、チームの改善を行い、そして開発パフォーマンス指標で効果を検証する取り組みを行ったので、その経験についてブログに書いておく。 前回の記事のサマリー バリューストリームマップを作り、開発フローの課題を発見する バリューストリームマップとは何か チームのバリューストリームマップを作る バリューストリームマップから課題を見つける 見つかった課題を解決する 開発パフォーマンスの指標で改善結果を振り返る まとめ:データを根拠にチーム改善するという進歩 参考 前回の記事のサマリー 前回の記事を前提として書くため、簡単にサマリーすると 開
IC1 Reliability Engineer I take direction from my team to automate and understand the systems Scope Area of ownership and level of autonomy / ambiguity I execute on defined tasks and contribute to solving problems with defined solutions. Collaborative Reach Organizational reach and extent of influence I work within the scope of my team with specific guidance from my manager/TL Impact Levers Techni
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く