Microsoft の Azure では、全世界に広がる 300 以上のデータセンターの数百万台を超えるサーバーを運用するために SRE が組織され、日々の安定稼働に向けて支援しています。その支援には、システム、サービス、製品でのサービス停止時の対応やその改善、新しい機能のリリースや変更などにあるリスクの評価、品質の確認などさまざまな活動が含まれます。 この記事では Azure の SRE チームがどのように組織され、どのような原則に基づいて運用しているか紹介します。 SRE の活動について、以下のような Microsoft のイベントやブログ記事、Podcastなどでも断片が紹介されているので参考になります。 Advancing Microsoft Azure reliability Advancing safe deployment practices Outages are inev
Clear HistoryLicenseDocumentation LicenseLicensed under the Creative Commons Share Alike 4.0 license. Code LicenseLicensed under the Apache 2.0 and MITnoAttr License. © 2023 Amazon Web Services, Inc. or its Affiliates. All rights reserved. Licensed under the Apache License, Version 2.0 (the "License"). You may not use this file except in compliance with the License. A copy of the License is locate
Get started building your own server to use in Claude for Desktop and other clients. In this tutorial, we’ll build a simple MCP weather server and connect it to a host, Claude for Desktop. We’ll start with a basic setup, and then progress to more complex use cases. What we’ll be building Many LLMs do not currently have the ability to fetch the forecast and severe weather alerts. Let’s use MCP to s
About Me My name is Marc Brooker. I've been writing code, reading code, and living vicariously through computers for as long as I can remember. I like to build things that work. I also dabble in machining, welding, cooking and skiing. I'm currently an engineer at Amazon Web Services (AWS) in Seattle, where I work on databases, serverless, and serverless databases. Before that, I worked on EC2 and
以下のセクションでは、ベストプラクティスアラームを設定することをお勧めするメトリクスを一覧表示しています。各メトリクスには、ディメンション、アラームの目的、推奨しきい値、しきい値の根拠、期間の長さとデータポイントの数も表示されます。 一部のメトリクスはリストに 2 回表示されることがあります。これは、そのメトリクスのディメンションの組み合わせによって異なるアラームが推奨される場合に発生します。 アラームを発生させるデータポイント数は、アラームが ALARM 状態になるのに必要な違反データポイントの数です。評価期間数 は、アラームの評価時に考慮される期間の数です。この 2 つの数が同じ場合、期間の値がその数だけ連続してしきい値を超えた場合にのみ、アラームは ALARM 状態になります。アラームを発生させるデータポイント数が評価期間数より少ない場合、そのアラームは「N 件中 M 件」のアラーム
はじめに オブザーバビリティの本質は、システムの外部出力を分析することで、システムの内部状態を理解し、洞察を得る能力です。 この概念は、事前に定義されたメトリクスやイベントに焦点を当てた従来の監視アプローチから、環境内のさまざまなコンポーネントが生成するデータの収集、分析、可視化を包括する、より総合的なアプローチへと進化してきました。 システムは観察されなければ、制御も最適化もできません。 効果的なオブザーバビリティ戦略により、チームは問題を素早く特定して解決し、リソースの使用を最適化し、システム全体の健全性に関する洞察を得ることができます。 オブザーバビリティは、問題を効率的に検出、調査、修復する能力を提供し、ワークロードの全体的な運用可用性と健全性を向上させることができます。 モニタリングとオブザーバビリティの違いは、モニタリングがシステムが機能しているかどうかを示すのに対し、オブザ
While these tips apply broadly to all Claude models, you can find prompting tips specific to extended thinking models here. プロンプトにコンテキスト、指示、例などの複数のコンポーネントが含まれる場合、XMLタグは大きな違いを生み出します。これらはClaudeがプロンプトをより正確に解析するのに役立ち、より質の高い出力につながります。 XMLのヒント: <instructions>、<example>、<formatting>などのタグを使用して、プロンプトの異なる部分を明確に区別します。これによりClaudeが指示と例やコンテキストを混同することを防ぎます。
Amazon Web Services ブログ 新規 — AWS Service Catalog を使用した Terraform オープンソース構成のセルフサービスプロビジョニング AWS Service Catalog では、AWS での使用が承認された Infrastructure as Code (IaC) テンプレートのカタログを作成、管理、管理できます。このような IaC テンプレートには、仮想マシンイメージ、サーバー、ソフトウェア、データベースから完全な多層アプリケーションアーキテクチャまで、あらゆるものが含まれます。個人、グループ、部門、またはコストセンターに基づいて、使用可能な IaC テンプレートとバージョン、各バージョンで設定する内容、各テンプレートにアクセスできるユーザーを制御できます。エンジニア、データベース管理者、データサイエンティストなどのエンドユーザーは、日常
AWS事業本部コンサルティング部のイシザワです。 最近のアップデートでTerraformで書かれたコードをService Catalogの製品として起動できるようになりました。 本記事では公式のGetting startedを参考に、製品を起動するまでの流れを確かめたいと思います。 やってみた Terraform Reference Engineのプロビジョニング まずは製品を登録する管理アカウントにTerraform Reference Engineをデプロイする必要があります。 今回はCloud9上でコマンドを実行してプロビジョニングをします。現時点のCloud9には動作要件のPython3.9が入っていないので先にPython3.9をインストールする必要があります。 参考) 【AWS】素の Cloud9 に Python 3.9 をインストールする 他にもjqが必要なのでインストール
はじめに はじめまして。DELISH KITCHEN 開発部でバックエンド開発を担当している池と申します。2021 年 9 月にエブリーに転職してバックエンドエンジニアとして働いています。入社して 3 ヶ月ですがサーバーサイド、フロントエンド、クラウド、CI/CD など多岐に渡る技術領域を触ることができ、とても有意義な毎日を送っています。 今回はこれまでに触ってきた技術の中から Datadog APM を試した際の内容についてご紹介したいと思います。 Datadog APM とは ご存知の方も多いとは思いますが、Datadog は SaaS 型運用監視サービスです。様々なプラットフォームにおけるホストの監視、アプリケーション監視、ログ蓄積などシステム監視全般を Datadog 一つで行うことができます。その中で APM(Application Performance Management)
Amazon Web Services ブログ PostgreSQL の行レベルのセキュリティを備えたマルチテナントデータの分離 Software as a Service (SaaS) プロバイダーには、基本的にテナントデータの分離を適用する責任があります。テナントの 1 つが別のテナントのデータにアクセスした場合、信頼はなくなり、ビジネスのブランドに永久的な損害を与える可能性があるだけでなく、さらにひどい場合には、ビジネスを失う可能性があります。 リスクが非常に大きいため、効果的なデータの分離を計画することが重要です。マルチテナントアーキテクチャは、各テナントのリソースをレプリケートするのではなく、すべてのテナントのデータストレージリソースを共有することで、俊敏性と運用コストを節約します。しかし、共有モデルで分離を適用することは難しいため、マルチテナントデータモデルで妥協して、テナント
This paper has been archived For the latest technical content, refer to the HTML version: https://docs.aws.amazon.com/whitepapers/latest/multi- tenant-saas-storage-strategies/multi-tenant-saas-storage- strategies.html SaaS Storage Strategies Building a multitenant storage model on AWS This paper has been archived For the latest technical content, refer to the AWS Whitepapers & Guides page: https:/
9月5日、「"SRE" doesn't seem to mean anything useful any more」と題したあるブログ記事が話題になっている。この記事では、SRE(サイト信頼性エンジニア)という役割が変容し、現在では単なる「オペレーション担当」へと貶められてしまった現状について詳しく紹介されている。以下に、その内容を紹介する。 SREの本来の役割とは何か SREとは、本来システム管理者とプログラマー、両者の役割を兼ね備えた技術者を指す。SREは、単なる「オペレーション担当」としての役割にとどまらず、システムの深部に精通し、Unixボックスを管理し、プログラムを書いてシステムを効率化することが求められる。しかし、最近ではSREという役割が単に「オペレーション担当」に矮小化されてしまっている。 オペレーション担当の現実 本記事の著者は、自身の経験を元に、SREが「オペレーション
Open-Source JavaScript Form Builder Libraries
こんにちは。@nari_ex です。 今回は、インシデントマネジメントのプラクティスの一つである重大度(Severity)を紹介します。 重大度とは? 重大度とは、イベントがシステムやビジネスに与える影響の深刻さを評価・分類する指標です。主に対応の優先度を判断するために使われ、インシデントレスポンスにおけるトリアージに役立ちます。インシデントマネジメントの実務では欠かせない概念です。 このプラクティスは、医療分野におけるトリアージのプラクティス(START法)によって定義されるトリアージ・タッグに類似したものです。 トリアージ・タッグ トリアージタッグは、傷病者の緊急度と治療優先度を示す色付きタグ(札)を付与することで、迅速かつ適切に傷病者の緊急度・優先度を分類するためのプラクティスです。とりわけ多数傷病者(Mass Casualty Incident, MCI)が発生した際に利用されます
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く