[B! SRE] imaizmのブックマーク

クリティカルユーザージャーニーを利用した SLI/SLO の改善 / #mackerelio

Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集

imaizm 2024/01/05

リンク

ついに最強のCI/CDが完成した〜巨大リポジトリで各チームが独立して・安全に・高速にリリースする〜 - ZOZO TECH BLOG

こんにちは。SRE部の巣立（@ksudate）です。我々のチームでは、AWS上で多数のマイクロサービスを構築・運用しています。マイクロサービスが増えるにつれて、CI/CDの長期化やリリース手法の分散など様々な課題に直面しました。本記事では、それらの課題をどのように解決したのかを紹介します。目次目次はじめに CI/CDのこれまで Release PRによるリリース CI/CD実行時間の長期化マイクロサービスごとのリリースが難しいリリーサーの制限ができないドメイン単位の並行リリースリリース手法が分散するブランチ間の同期が必要パイプラインの増加 CI/CD実行時間の長期化リリーサーを制限できない CI/CDの刷新高速かつシンプルなCIパイプライン変更差分を利用したCIパイプラインの実行承認機能付きのCDパイプライン GitHub Environmentsによるリリー

imaizm 2023/11/28

リンク

信頼性目標とシステムアーキテクチャー / Reliability Objective and System Architecture

SRE NEXT 2023で発表した内容です。 https://www.youtube.com/live/c_oMpshssRg?si=LfArG3rX4VXPJ30H&t=27643

imaizm 2023/10/03

リンク

SLOをゼロからつくる

tfnotify - Show Terraform execution plan beautifully on GitHub

imaizm 2023/07/06

202307
SRE

リンク

SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル

SREチームがNew Relicを使って AWSコスト最適化に貢献した話株式会社ニューズピックス安藤裕紀 NRUG (New Relic User Group) SRE支部 Vol.3 - 2023.6.27(Tue)

imaizm 2023/06/28

リンク

SRE 研修

SRE 研修共有ログインお使いのブラウザのバージョンはサポートが終了しました。サポートされているブラウザにアップグレードしてください。閉じるファイル編集表示ツールヘルプユーザー補助機能デバッグ

imaizm 2023/04/17

リンク

デプロイ今昔物語〜CGIからサーバーレスまで〜 / The deployment technics

YAPC::Kyoto 2023

imaizm 2023/03/20

リンク

AWSの開発環境の利用時間をGoogleカレンダー連動させたら開発チームが自由に使えてコスト70%削減！！ - Uzabase for Engineers

こんにちはNewsPicks SREチームの美濃部です。 NewsPicksのSREのミッションの1つに「コストを適正化する」というものがあります。サービスの規模拡大に比例してインフラコストが増えないようにし、売上に対するコストの割合を低く維持していくのがミッションになります。今回はこのミッションに対するアクションとして開発環境のインフラコストを適正化した話をします。 NewsPicksの開発環境について開発環境のコストをどうやって適正化したか稼働時間対応を実現する仕組みについて実際どれくらい削減できたのかまとめ NewsPicksの開発環境についてまず、NewsPicksの開発環境について概要を説明します。インフラ基盤は本番環境と同様にAWSを利用しており開発チームは現在10以上のチームが存在し、それぞれのチーム専用に用意された開発環境を利用しています。 2年程前までは開発

imaizm 2023/02/21

リンク

Zero Touch Productionへの移行 | メルカリエンジニアリング

※本記事は2022年1月26日に公開された記事の翻訳版です。筆者：Dylan Lau (@aidiruu), Platform DXチーム Zero Touch Production (ZTP)は、本番環境に加えられるすべての変更が、自動化、安全なプロキシ、または監査可能なBreak-glass（緊急アクセス）システムによっておこなわれるという概念です。人為的ミスに起因する本番環境での障害には、次のようなさまざまな種類があります。構成エラースクリプトエラー間違った環境でのコマンド実行 ZTPはこれらのエラーによる障害発生のリスクを軽減できます。メルカリでは、ZTP環境への移行に取り組んでいます。最初のステップは、一時的な役割付与システムであるCarrierを実装することです。この記事では、以下について説明します。 ZTPの重要性 ZTPを実装するプロセスとCarrierを始めた理

imaizm 2022/11/01

リンク

Treasure Data を退職しました - k0kubun's blog

約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィーやっていたこと APIチーム元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実

imaizm 2022/07/25

リンク

SRE Classroom: The Art of SLOs - Google

The Art of SLOsは、GoogleのCustomer Reliability Engineeringチームによって開発されたワークショップです。このワークショップの目的は、Googleがサービスの信頼性を計測する方法サービスレベル指標(SLI) とサービスレベル目標 (SLO)を参加者に紹介し、実際にこれらの計測方法を作成することを体験してもらうことです。これらは重要で土台となる概念です。サービスの信頼性を客観的に測定する方法があれば、サービスの信頼性について有意義な会話をすることがはるかに簡単になります。ワークショップの理論編では、開発チームと運用チームの間でしばしば生じる組織的な緊張を、サービスの望ましい信頼性を表す目標値を設定することで解決する方法を学びます。また、SLOとエラーバジェットを使って、データ駆動で、客観的、かつユーザー重視の方法でサービスの信頼性を測定・

imaizm 2022/07/09

リンク

アプリチーム x SRE チームによるアプリケーションモニタリング運用改善 - freee Developers Hub

freee人事労務の品質改善を専任で活動している keik です。 freeeではアプリケーションパフォーマンスモニタリング（APM）に Datadog を利用しています。 SRE チームが導入し、アプリケーション開発チームに利用提供する形で運用されています。導入のきっかけについては以下の記事でも触れられています。 developers.freee.co.jp Datadog APM の画面は多機能かつ柔軟で、例えばウェブサーバーが受けたリクエスト処理の内訳を視覚的にドリルダウンできたり、リクエストや SQL クエリごとのレイテンシやエラー率を計測してダッシュボード化してくれたり、また全画面で共通的に「タグ」や日時を用いたフィルタリングができたりします。直感的なだけなく、見た目もオシャレで、適当に眺めているだけでもワクワクします。しかし、私達は「ここに映っているもの」が何なのか、正直分

imaizm 2022/02/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

SREに関するimaizmのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス