[B! SRE] [2ページ] Akinekoのブックマーク

SRE Lounge #7 Gunosy版「SREミッション」策定

スクラムガイドのスプリントレトロスペクティブを改めて読みかえしてみた / Re-reading the Sprint Retrospective Section in the Scrum Guide

Akineko 2020/10/18

SRE

リンク

スタディスト開発部が目指す SRE の未来と現状と Kubernetes

（上記ブログ執筆時は、EKS on EC2 へ移行予定でしたが、EKS on Fargate への移行を行う方針に切り替えました。） Kubernetes 移行に関連する技術面の話題についてはご紹介してきた一方で、これまでの記事では、「なぜ Kubernetes 移行を行っているか？」「スタディスト開発部は、最終的に何を目指しているのか？」といった背景には触れておりませんでした。そこで本記事では、スタディスト開発部が目指す世界観と、その過程として歩んでいる Kubernetes 移行の位置づけについてご紹介します。目次Teachme Biz における Infra の現在と抱えている課題スタディスト開発部が目指す世界観Kubernetes 移行の位置づけ今後のやりたいことTeachme Biz における Infra の現在と抱えている課題現在 Teachme Biz の大部分（以降、本記

Akineko 2020/10/05

リンク

GitHub - mercari/production-readiness-checklist: Production readiness checklist used for Mercari and Merpay microservices

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

Akineko 2020/09/09

リンク

production-readiness-checklist/docs/references/pre-production-checklist.md at master · mercari/production-readiness-checklist

This checklist contains points that must be satisfied during implementation and verified prior to release. Please note that all it ems in the design checklist that were verified at the end of the design phase, must still be satisfied at release time (e.g. the design doc must be up-to-date, the SLOs must be consistent, ...).

Akineko 2020/09/09

SRE

リンク

カード業界の厳しいセキュリティと開発スピードをどう両立？ Kyashに学ぶAWS活用

急成長中のスタートアップ企業は、多様なAWSサービスをどう選択・活用し、ビジネス課題を解決しているのでしょうか。本連載では、スタートアップ企業の中でエンジニアリングをリードしている担当者がそのアーキテクチャをひも解き、AWS活用術を紹介していきます。第5回はKyashでSREを担当する上原佑介氏が担当、テーマは「セキュリティ」です。記事の最後には、SAによるポイント解説もあります。（編集部）はじめに株式会社KyashでSREを担当する上原佑介と申します。新卒でインフラエンジニアとしてサーバー構築・運用を経験したのち、Webサービスの運営企業を数社経て、Kyashへ入社しました。現在はサービス全体の信頼性向上を目指して、システム基盤や運用面の改善に取り組んでいます。 Kyashについて Kyashはスマートフォンアプリと連動するVisaカードです。コンビニなどから現金をチャージして使え

Akineko 2020/08/24

リンク

「信頼性」を保ちつつ大規模サービスをリニューアルする / cookpad-tech-kitchen-service-embedded-sres

Cookpad Tech Kitchen #24 5800万人が使うサービスのリニューアルとその技術 ( https://cookpad.connpass.com/event/183385/ ) で、"「信頼性」を保ちつつ大規模サービスをリニューアルする" というタイトルで発表した際の資料です。スライド内のリンクは次のとおりです。 - How SRE teams are organized, and how to get started: https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-how-to-get-started - Design Docs at Google: https://www.industrialempathy.com/posts/design-docs

Akineko 2020/08/22

SRE

リンク

メルペイの Infrastructure as Code について、 HashiCorp Certified: Terraform Associate を受験した SRE に聞いてみた | メルカリエンジニアリング

メルペイの Infrastructure as Code について、 HashiCorp Certified: Terraform Associate を受験した SRE に聞いてみたこんにちは。メルペイ Engineering Office チームの kiko です。先月、 HashiCorp Certified: Terraform Associate がリリースされましたね。早速 @tjun さん（メルペイ SRE, Engineering Manager ）と @keke さん（メルペイ SRE ）が受験していました。というわけで、今回はこのお二人に、試験の話とメルペイの Infrastructure as Code について聞いてみました。サマリーメルペイでは、クラウドのリソースや Datadogのダッシュボードなど様々なことをTerraformでコード化して管理している

Akineko 2020/05/02

リンク

Google、SRE本の第三弾「Building Secure and Reliable Systems」を無料公開

Google、SRE本の第三弾「Building Secure and Reliable Systems」を無料公開 GoogleはSite Reliability Engineering（SRE）に関連する書籍として、これまで「Site Reliability Engineering」「The Site Reliability Workbook」の2冊を無料で公開してきました。このSRE本の第三弾として、Googleは「Building Secure and Reliable Systems」の無料公開を開始しました。「Site Reliability Engineering」（SRE）とは、GoogleのシニアVPであるBen Treynor氏が提唱した、高い信頼性や性能を発揮するシステムインフラを実現し、改善していくアプローチのひとつです。そしてこのアプローチは、前述の通り20

Akineko 2020/04/13

SRE

リンク

モダンなシステムにSLI/SLOを設定するときのベストプラクティス

New RelicではどのようにSLI/SLOを定義し、SREを実践しているか。その経験から、SLI/SLOについて解説した記事 Best Practices for Setting SLOs and SLIs For Modern, Complex Systems の翻訳です。 -- New Relicのサイト信頼性VPであるMatthew Flamingも、この記事に貢献しています。この記事はサンフランシスコその他で行ったFutreStack18での講演「SLOs and SLIs In The Real World: A Deep Dive.」をもとに作られています。 New Relicでは、サービスレベル指標（Service Level Indicator: SLI）とサービスレベル目標（Service Level Objective: SLO）を定義したり設定したりことが、サイト

Akineko 2020/03/31

SRE

リンク

Googleの徹底的なシステム障害への対応「SRE」の中身とは？

インターネット上でサービスを提供する企業では、いかに自社のシステム障害と向き合うかが重要です。検索エンジンやクラウド、メール、広告など、さまざまなサービスを提供しているGoogleが、自社が提唱しているシステム管理の方法論「SRE」に基づき、システム障害にどう対応しているかを実際の事例をもとに紹介しています。 SRE keeps digging to prevent probl ems | Google Cloud Blog https://cloud.google.com/blog/products/management-tools/sre-keeps-digging-to-prevent-probl ems SREはサイト・リライアビリティ・エンジニアリングの略で、「サイト信頼性エンジニアリング」と訳されることもあります。Googleのような大規模な企業では、他の企業ではめったに起こらない

Akineko 2020/03/17

SRE

リンク

SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ

※この投稿は米国時間 2020 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。作業効率を検証するために Google のサイト信頼性エンジニア（SRE）が使用している主な測定指標の一つが、日々の時間の使い方です。長期間のエンジニアリングプロジェクトのために時間を確保する必要がありますが、エンジニアには Google のサービスを稼働し続ける責任もあり、そこにも手作業が生じることがあります。Google の SRE は、いわゆる「トイル」に費やされる時間を勤務時間の 50% 未満にすることを目指しています。では、トイルとは何でしょうか。トイルに邪魔されずに開発スピードを維持するには何をすべきでしょうか。本稿ではこれらの問いについて見ていきます。まずトイルの定義ですが、『Site Reliability Engineering』の第 5 章には次の

Akineko 2020/02/22

SRE

リンク

スクラムを1年回して SREと開発組織がどう変わったのか

How to Create Impact in a Changing Tech Landscape [PerfNow 2023]

Akineko 2020/01/27

SRE

リンク

絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長 / SRE Next 2020

SRENext 2020において、メルカリの m4buyaと一緒に発表しました

Akineko 2020/01/25

SRE

リンク

Webサービスを1日10回デプロイするための取り組み / SRE NEXT 2020

Amazon ECSで好きなだけ検証環境を起動できるOSSの設計・実装・運用 / YAPC::Hiroshima 2024

Akineko 2020/01/25

SRE

リンク

分散アプリケーションの信頼性観測技術に関する研究 / A study of SRE

SRE NEXT 2020 IN TOKYO https://sre-next.dev/

Akineko 2020/01/25

SRE
監視

リンク

SREの観点から考える定期的・継続的な負荷テスト - Qiita

この記事はSRE Advent Calendar 2019の24日目の記事になります。はじめにこんにちは、OPENREC.tvでSREに所属している@toro_ponzです。納豆が好きです。今年の9月までアプリケーションエンジニアとしてサーバーサイドチームに所属していましたが、10月よりSREチームに所属することになり、Kubernetes回りの運用や既存インフラの改廃などを行っています。今期のOKRの内の1つに「負荷テスト環境の整備」というものがあり、自分なりに負荷テストについて調べる機会があったため、それをまとめてみようと思います。負荷テストとは Webシステムにおける負荷テストとは、そのシステムに対して多数のリクエストを送ることによって、システムが想定される性能を満たしているかどうか確認するテストのことを指します。一口に負荷テストといえども、その種類はいくつかあります。後述

Akineko 2019/12/24

リンク

SREってなんだ？哲学と習慣、そしてツール。

1.SREの哲学と原則 SREは”DevOpsを純粋な形にしたもの”なのか SRE担当VPとして、Matthew FlamingはNew RelicのSREプラクティスを監督しています。SREはおそらく”DevOpsの原則を単一の役割に最も純粋に蒸留したものだ”と彼は考えています。昨年の FutureStack New YorkでGoogleのSREであるLiz Fong-Jones氏はこの考えを広げました。Googleのソフトウェアエンジニアは、運用システムのコードと信頼性に常に責任を負っていますが”SREはさまざまなシステムがどのように連携するか、どのように機能するか、そしてどのように改善されるべきかについて、専門的な理解を深めることに責任がある”と彼女は言いました。SREはソフトウェアエンジニアリングのタスクを引き受ける可能性がありますが、エンジニアリングチームが提供するサービスの

Akineko 2019/12/17

SRE

リンク

SREやクラウドエンジニアが読むと良さげな本まとめ - Qiita

一年半ぐらい前にアプリケーションエンジニアからSREにコンバートした筆者が、いま役に立ってるなぁっていう本を紹介します。アプリケーションコードを書いてるときは下のレイヤの技術に興味なかったんですが、改めて勉強してみると楽しいです。コンピュータシステムクラウド全盛とはいえ、コンピュータの仕組みはおさえておくと役立ちます。コレ系の本はわりと小難しいものが多いですが、個人的に楽しく読めた本を紹介します。 Raspberry Piで学ぶコンピュータアーキテクチャ Raspberry Piと銘打たれてますが、コンピュータアーキテクチャの歴史的な背景も踏まえて解説されています。プロセッサ・メモリ・ストレージ・ネットワーク・OS・プログラミングなど、コンピュータ単体の基本的な知識を学べます。　歴史をあわせて知ることができるため、知的好奇心がおおいに刺激され、楽しく読むことができます。この本が難しく感

Akineko 2019/12/10

リンク

今年読んだ技術書籍（2019年）

今年読んだ技術書籍やレポートなどをざっくりまとめてる．Infrastructure Engineer・Platfomerとして日々の業務に直結するものから1年くらいかけてやっていきたいと思っていることなどを中心に． Kubernetes 業務ではメインにKubernetesを使っているのでKubernetesに関わる書籍は発売されれば大体目を通すようにしている．今年発売されたので良かったのはProgramming Kubernetes．この本はCRDやOperatorによってKubernetes nativeなアプリケーションを構築することにフォーカスしている．昨年のJapanContainerDaysでのMicroservices Platform on Kubernetes at Mercariでも話したようにKubernetesを使う大きな理由の1つはその拡張性にある．Kubebu

Akineko 2019/12/06

リンク

SRE実践の手引 ─ 信頼性をどう制御するか？から始める、現実的な指標と目標の設計と計測 - エンジニアHub｜Webエンジニアのキャリアを考える！

SRE実践の手引 ─ 信頼性をどう制御するか？から始める、現実的な指標と目標の設計と計測 SREの役割には、信頼性、SLIとSLO、エラーバジェット、トイル、ソフトウェアエンジニアリングといった複数のキーワードが存在するがゆえ、なかなかうまく実践できない、という声もあります。本稿では、難しく見られがちなSREの内実を、「信頼性の制御」というコンセプトを軸に整理し、小さく始める一歩を坪内佑樹（ゆううき）さんが解説します。こんにちは。SREの研究者をやっているゆううき（@yuuk1t）です。 SRE（Site Reliability Engineering）は、従来のオペレーションエンジニア、システム管理者（sysadmin）と呼ばれる人々が担っていた技術領域の新しい形です。Googleによって提唱され、日本国内でも2015年ごろからWebコンテンツ事業者のコミュニティを中心に広く知られる

Akineko 2019/12/05

SRE

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

SREに関するAkinekoのブックマーク (52)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス