SREの中でも最も重要なプラクティスであるオブザーバビリティですが、これはシステムや組織のどのレベルで持つべきものなのでしょうか。マクロなレベルで持つオブザーバビリティと、ミクロなレベルで持つオブザーバビリティは大局的には同じでも、細かな部分ではそのサイクルを含めて異なってきます。本セッションでは組織で…
wsa.connpass.com オンライン開催に参加してきました。 予稿 github.com 発表資料 システムの変化に追従可能でかつ理解し易いドキュメントシステム 発表内容はドキュメントシステム(ドキュメンテーションツール)についてです。 私は、システムを理解するためにかかる時間(いわゆる「オンボーディングまでのコスト」。私は「開発開始までのオーバーヘッド」と呼んでいます)をいかに継続的に削減できるかに興味をもっています。 それはなぜかというと「私がシステムの理解のセンスがないからそれをなんとか技術で解決したい」という個人的欲求に他ならないのですが、「まあオンボーディングのコストが小さくなればそれはエンジニア全員にも良いことだろうな」と勝手に思い込んでいろいろ作ったりしています。 実は今回の発表にいたるまでには過程があって、July Tech Festa 2021 winter では
Kubernetesにわざと障害を起こさせる仕組みを組み込める「LitmusChaos」がCNCFのインキュベーションプロジェクトに昇格 Kubernetesなどを始めとするクラウドネイティブを実現するためのオープンソース群の開発などを推進する団体Cloud Native Computing Foundationは、Kubernetesをベースにカオスエンジニアリングを実現できるソフトウェア「LitmusChaos」が、実験的なサンドボックスプロジェクトから、育成のためのインキュベーションプロジェクトに昇格したことを発表しました。 The @LitmusChaos project has officially moved from the #CNCF Sandbox to the Incubator! https://t.co/ptrzk2a34n pic.twitter.com/X7pq
tl;dr Today, we are open-sourcing a long-awaited GUI for Metaflow. The Metaflow GUI allows data scientists to monitor their workflows in real-time, track experiments, and see detailed logs and results for every executed task. The GUI can be extended with plugins, allowing the community to build integrations to other systems, custom visualizations, and embed upcoming features of Metaflow directly i
セキュキャン2023でSysmonForLinuxを使った経験があり、プログラムの挙動ログを自作ロガーで取りたいなと思ったので、Go+ebpf-goで簡単なシステムコールロガーを実装した。eBPFもGoも初心者なのでコードが汚いのは御愛嬌。 コード全体 コードはここに書いた。記事作成時点のコードであって、最新版ではないので注意。 main.go package main import ( "bytes" _ "embed" "encoding/binary" "encoding/json" "fmt" "os" "os/signal" "syscall" "github.com/cilium/ebpf" "github.com/cilium/ebpf/link" "github.com/cilium/ebpf/ringbuf" "github.com/cilium/ebpf/rlimit"
rain deploy時のパラメータ指定。VPC ID、サブネットIDはご自身の環境に合わせ変更してください。 rain deploy ./fargateWithFirelens.yml fargateWithFirelens-stack --params \ AppName=webapp,\ ClusterName=cluster,\ DesiredCount=1,\ Environment=test,\ ImageNameFirelens=public.ecr.aws/aws-observability/aws-for-fluent-bit:latest,\ ImageNameWebApp=public.ecr.aws/nginx/nginx:latest,\ ProjectName=minimum,\ PublicSubnet1=subnet-043566448c316b46a,\
こんにちは!Mackerel CRE の id:KGA です。 2024年3月25日(月) に「OpenTelemetry Casual Talk - コンセプトのおさらいと実践入門!」を はてな 東京オフィスにて開催し、盛況を博しました!本記事では発表資料や配信動画のアーカイブとともに、イベントのレポートします。 OpenTelemetry Casual Talk - コンセプトのおさらいと実践入門! OpenTelemetry Casual Talk とは Mackerel のイベント初!ライブ配信を行いました 盛りだくさんのトーク内容 OpenTelemetry実践 はじめの一歩 by id:taxintt サービスメッシュ環境における OpenTelemetry 活用 by 逆井さん、柏原さん OpenTelemetry のサービスという概念について by id:azukiazus
可観測性に関するオンラインイベント「Observability Japan Online #1」が2020年3月17日に開催されました。Google CloudでDeveloper Advocateを務める山口能迪(ymotongpoo)氏は、「オブザーバビリティについて」という講演テーマで、プロファイラーを活用するメリットや利用方法について語りました。当日のスライドはこちら。 Observabilityにおけるプロファイルの重要性 山口能迪氏(以下、ymotongpoo):山口です。Google CloudでDeveloper Advocateをしていて、担当はObservabilityとGoです。 つい最近までは「Stackdriver」と呼ばれている製品群があったのですが、名前が変わりまして「Cloud Operations」という名前になっています。「Stackdriver」という
By Alok Tiagi, Hariharan Ananthakrishnan, Ivan Porto Carrero and Keerti Lakshminarayan Netflix has developed a network observability sidecar called Flow Exporter that uses eBPF tracepoints to capture TCP flows at near real time. At much less than 1% of CPU and memory on the instance, this highly performant sidecar provides flow data at scale for network insight. ChallengesThe cloud network infrast
こんにちは。サイバーエージェントの杉浦です。 連載「5分でわかる!Kubernetes/CloudNative Topics」の第6回は、オブザーバビリティに注目して、Kubernetesにおける継続的プロファイリングについて取り上げます。 オブザーバビリティとプロファイル 安定してサービスを提供するためには、デプロイしたアプリケーションの状態を継続的に観測し、不具合やその予兆を察知・対処していく必要があります。 アプリケーションの状態を観測する能力をオブザーバビリティ(Observability[1])といいます。このオブザーバビリティを確保するにあたってどのようなデータを用意すべきか、従来ではメトリクス・トレース・ログの3つを柱とすべきだとされていました。 それぞれメトリクスはCPU使用率やメモリ使用量といった時系列の数値データ、トレースは個々のアプリケーションを伝播する特定のリクエス
モニタリングサービス「Datadog」で、3月8日午後3時半ごろから障害が起こっている。米国やヨーロッパなど、政府向けを除く全リージョンで問題が発生。セキュリティ監視やログ管理機能などに遅延・エラーが見られるという。 関連記事 ChatGPTにKubernetesのアラート対応を教えてもらえる 監視ツールとAIをつなげる「Kubernetes ChatGPT Bot」登場 Kubernetesのモニタリングツールと「ChatGPT」を統合した「Kubernetes ChatGPT Bot」が登場。発生したアラートの内容を自動的に受け取り、対処方法をAIがチャットで教えてくれるという。 Google CloudのPrometheusマネージドサービスが正式版に 6京5000兆のポイントを保持するバックエンド上に構築、事実上無限の指標に対応可能 Google Cloud上で動作する運用監視ツー
AWS News Blog New – Amazon ECS Service Connect Enabling Easy Communication Between Microservices Microservices architectures are a well-known software development approach to make applications composed of small independent services that communicate over well-defined application programming interfaces (APIs). Customers faced challenges when they started breaking down their monolith applications int
こんにちは。 Platformチームの前多(@kencharos)です。 2022年8月9日に開催した社内勉強会で、eBPFベースのネットワークミドルウェア、Cilium(スリィアム) について発表しました。 この記事は発表の内容をベースに内容を補足したものです。 この記事を読むにあたり、Kubernetesをある程度触ったことがないと用語などが分かりづらいかもしれません。 サービスメッシュやIstioについては、構成や導入目的について簡単に次節に記載しています。 より詳しく知りたい方はIstioのサービスメッシュの説明を見てもらえると、Ciliumとの対比がわかりやすくなるでしょう。 またサービスメッシュを触ったことがある、あるいは運用している方であれば、Ciliumの魅力がより伝わると思います。 eBPFの知識は必要ありません。またeBPFについて同僚も社内勉強会で発表していますので、
LINEヤフーはDB自動チューニング術を紹介――「KubeCon」で気になった最新のKubernetes×データベース運用ノウハウ:「KubeCon+CloudNativeCon North America 2023」レポート 「クラウドネイティブ」という言葉がなじんだ今、市場に登場した新たなデータベースやデータベースを支えるプラットフォームにまつわる情報を紹介していきます。今回は「KubeCon+CloudNativeCon North America 2023」で気になった内容をお届けします。 「クラウドネイティブ」という言葉がなじんだ今、市場に登場した新たなデータベースやデータベースを支えるプラットフォームにまつわる情報を紹介する本連載。前回はNewSQLの一つである「YugabyteDB」のユーザーによるラウンドテーブルの様子をお届けしました。国内市場でもクラウドネイティブな新しい
Author:@deeeeeeet, Engineering manager of Microservices SRE The Microservices SRE team is one of the Developer Productivity Engineering Camp teams. The team provides embedded SRE service to the product team. By working with/inside the product team, we improve the service reliability and share SRE practices with the team so that the team can maintain its reliability without SRE members. We rotate e
RFCs - requests for comment - or Design Docs are a common tool that engineering teams use to build software faster, by clarifying assumptions and circulating plans earlier. There are some similarities between writing automated tests for your code, and writing RFCs before you start working on a non-trivial project: Software engineers who write tests for their code - and ask for code reviews on it -
HTTP/2 Rapid Reset: deconstructing the record-breaking attack10/10/2023 This post is also available in 简体中文, 繁體中文, 日本語, 한국어, Deutsch, Français and Español. Starting on Aug 25, 2023, we started to notice some unusually big HTTP attacks hitting many of our customers. These attacks were detected and mitigated by our automated DDoS system. It was not long however, before they started to reach record b
Slack の Home タブを使って君だけのオリジナル New Relic ダッシュボードを作ろう!JavaScriptNewRelicSlackBoltslack-api はじめに ・・というわけで、DeAGOSTINI(デアゴスティーニ)風のタイトルを付けてみましたが、これは New Relic Advent Calendar 2019 の 4 日目の記事です。 この記事では「New Relic のエージェント、REST API / Insights Query API あたりと Slack の新しい UI 機能を組み合わせて、ちょっと楽しいことができるよ!」ということをお伝えします。 Slack 使っていますか? New Relic を利用されている開発者の方の中でコミュニケーションや情報の共有は Slack を利用しているという方も多いのではないでしょうか?事実、先日 Slack
はじめに 本記事は、 AlphaDrive Advent Calendar 2023 の 12/23 公開分の記事になります。 qiita.com AlphaDrive CTO/NewsPicks for Business 取締役のアカザワです。 冒頭から余談ですが、CTOとしてAlphaDriveのエンジニア組織を2人から立ち上げて3年、一昨年と昨年は同じUzabaseグループであるNewsPicksのAdvent Calendarに参加させていただいておりましたが、2023年ついにAlphaDriveのチーム単独でAdvent Calendarを実施し埋め切る状態と人数規模になりました!! 嬉しい🎉 めでたい🎉🎉 ...と喜びを表明させていただき本題です。本記事は2023年10月10日及び11日にオンライン/オフラインで開催されたAWS主催のSaaS on AWSのDay2内セッ
冒頭2022年現在、データ界隈で良く聞く概念の一つに、Active Metadataがある。最も、日本では未だ広く浸透していない概念ではあるが、北米ではData MeshやData Fablic、Metrics Layer等のバズワード(?)と同じように界隈を賑わしているものであり、こと ”データが資源” である21世紀の企業経営においては(現時点で少なくとも北米においては)最重要トピックの一つであると言って過言でない。 本日は、データの最前線を賑わしているアクティブメタデータについて、まだ日本語での記事も多くないので、思うところを書いてみることにした。 背景ときっかけ既にご存知の方も多いと思うが;象徴となったのは、Gartner社が2021年8月にMagic Quadrant for Metadata Managementの廃止を宣言し、代わりに Market Guide for Act
The Legends of Runeterra CI/CD Pipeline Hi, I’m Guy Kisel, and I’m a software engineer on Legends of Runeterra’s Production Engineering: Shared Tools, Automation, and Build team (PE:STAB for short). My team is responsible for solving cross-team shared client technology issues and increasing development efficiency. We focus on the areas that empower other teams to do more and protect the team from
Amazon Web Services ブログ 【開催報告 & 資料公開】AWS 春の Observability 祭り 2024 こんにちは。ソリューションアーキテクト (以下 SA) の高野です。 2024 年 4 月 25 日に「AWS 春の Observability 祭り 2024 〜Observability 獲得までの旅〜」と題したイベントを開催しました。昨年秋に実施させていただいた AWS 秋のObservability 祭り以来の Observability をテーマにしたイベントになります。ご参加いただきました皆様には、改めて御礼申し上げます。昨年の開催報告ブログはこちら。 本ブログでは、その内容を簡単にご紹介しつつ、発表資料を公開致します。今回は、Observability の獲得プロセスをテーマに様々なセッションを行いました。Observability 獲得の全体像
Security-JAWS 第26回のレポートです。脆弱性管理とか全体管理とか自動化とか、いろいろためになったなあ こんにちは、臼田です。 Security JAWS 第26回が開催されましたのでレポート致します。 Security-JAWS【第26回】 勉強会 2022年8月25日(木) - Security-JAWS | Doorkeeper 動画 レポート 告知 AWS Startup Community Conference 2022やるよ! JAWS DAYS 2022 - Satellite -やるよ! Session1: アクセスキー運用管理のベストプラクティス アマゾン ウェブ サービス ジャパン合同会社 Security Specialist Technical Account Manager 飯島 卓也さん AWSサービスに対してプログラムによるアクセスをする場合にはア
この記事は2021年3月6日に行われたオープンソースカンファレンス 2021 Online/Springにおける発表を文章化したものです。 今回は「今日から始めるPrometheusによるシステム監視」ということで、Prometheusというツールについてご紹介をしていこうかなと思います。皆さんに「Prometheus完全に理解した」と言えるようになっていただきたい、というのが今回の目標です。 本連載は3本で構成されていて、それぞれ以下の内容を扱います。 Prometheusの特徴とアーキテクチャ(この記事) PrometheusとCNCF、Observability Prometheusを使ってみよう Prometheusとは Prometheus(プロメテウス)は、SoundCloudという海外の音楽系サービスのエンジニアによって開発された監視システムです。もともと、Kubernete
例年のように、昨年の活動を振り返る。 昨年は、それ以前の5年と異なり、働き方もエンジニアから研究者へ転向したことにより、自分を取り巻く環境は大きく変化した。 とはいえ、1年の研究活動を通じて、エンジニア時代と比較し、働き方は変わっても、自分が目指すものはあまり変わらないことも再確認した。 エンジニアであっても、研究者であっても、SREの分野において、相変わらず特定の環境に依存しない汎用的かつオリジナルの貢献を目指している。 エンジニアか研究者かというのは、自分にとっては、単に時間の使い方の差に過ぎない。 エンジニア時代は、企業の商用システムの開発・運用経験を通して、余暇時間でブログに知見をまとめたり、ソフトウェア化したりしていたが、研究者になってからは現場経験のウェイトをほぼゼロにして、学術論文の形で深く知見をまとめて、ソフトウェア化を進めている。 1月 昨年の12月に前職を退職したのち、
JJUG CCC 2023 Fallに参加しました! 前回よりも参加者が大幅に増えて、ワイワイと盛り上がった中でいろんな話が聞けて楽しかったです! 特に、一足先に次回の Java 22 でリリース予定の Foreign Function & Memory API と String Template の話があって、使えるようになるのが楽しみになりました。 あと、今回「バイナリビューアを使ってクラスファイルを読んでみよう!」というテーマで登壇しました。 思ったよりもたくさんの人に聞いてもらえて、そして楽しんでいただけたようで、嬉しかったです。前日まで、これ分かりにくいけどどうしたら…と悩みながら内容を練った甲斐がありました。 準備は大変でしたが、また機会があれば頑張ります! さて、最後にいつものを。 今回、残念ながら時間がかぶってしまって参加できなかったセッションがいっぱいあったので、あとで読
Elasticsearch piped query language, ES|QL, now generally available Today, we are pleased to announce the general availability of ES|QL (Elasticsearch Query Language), a dynamic language designed from the ground up to transform, enrich, and simplify data investigations. Powered by a new query engine, ES|QL delivers advanced search using simple and familiar query syntax with concurrent processing, e
本記事について Lokiについてまったく知識のない状態の人にとって、1からキャッチアップしていくのは とても大変なことです。 特にLokiはマイクロサービスで構成されているため、何を知るべきなのかの全体像が見えにくいと思っています。 そのため、Lokiをまったく知らない状態から実際に運用検証を開始するために必要なインプットを体系的にまとめました。 具体的には下記の項目で整理します。 Lokiの機能 Lokiを構成するアーキテクチャ Lokiを構成するプロセス Lokiのモニタリング Lokiでのログのリテンション管理 Lokiのデプロイ Lokiでのデータキャッシュ Lokiのベストプラクティス ※前提として、Prometheusについての基本的な知識があれば本記事についてもすぐに理解できるかと思います。 1. Lokiの機能 Grafana Lokiとは? Lokiは3大監視項目である、
はじめに こんにちは。LegalOn Technologies 検索・推薦チームの臼井(jusui)です。 私たちのチームは、LegalOn Technologies が提供する主要サービス—「LegalOn Cloud」、「LegalForce」、「LegalForceキャビネ」—の検索・推薦システムの開発と運用を担当しています。 2024年7月に当チームから「Dataflow 実践開発セットアップ」を公開しました。 tech.legalforce.co.jp 今回は、2024年4月から提供開始した弊社の新サービス「LegalOn Cloud」の初回リリースに向けて開発した Indexing pipeline とその後の改善についてご紹介します。具体的には、Cloud Pub/Sub と Cloud Dataflow を活用した Indexing pipeline の開発により、Elas
No matter what kind of software you’re developing, you most definitely leverage logging to some extent, probably every single day. You write a lot of logs, you read tons of them too, it is the most basic observability tool we have. Not all logs are equal / Should you even log it?There are many pitfall that can lead to useless, wasteful and confusing logs. Therefore I follow a specific set of pract
In Tenable.io, we are heavy users of Datadog custom metrics. Millions of metrics are sent through Dogstatsd, providing deep insights into the complex platform. As the platform grew, we found that a significant number of metrics sent by legacy apps were obsolete. We tried to hunt down these obsoleted metrics in the codebase, but modifying legacy applications was extremely time consuming and risky.
Building Enterprise-Ready Backend Services Distributed Systems with Node.js, a book I wrote through O'Reilly, has been published! Distributed Systems with Node.js hard copies In this hands-on guide I prove that Node.js is just as capable as traditional enterprise platforms for building services that are observable, scalable, and resilient. Intermediate to advanced Node.js developers find themselve
BASE BANKでエンジニアをしている @budougumi0617 です。 この記事はBASE Advent Calendar 2021 10日目の記事…ではなく、New Relic Advent Calendar 2021 10日目の記事です。 qiita.com TL;DR ソフトウェア開発チームのパフォーマンスを示す 4 つの指標がある https://www.devops-research.com/quickcheck.html デプロイの頻度 変更のリードタイム 変更障害率 サービス復元時間 New Relic Oneを使って「デプロイの頻度」を計測してみた Event APIとNRQLでデプロイ回数をNew Relic Oneのダッシュボードに図示できる https://docs.newrelic.com/docs/data-apis/ingest-apis/introdu
こんにちは!あさひです 🙋♂️ 今週は Birthday Week の変更分があったりで更新多めです! 早速キャッチアップしていきましょう。 この記事の主旨 この記事では、Cloudflare のサービスにどんな変更があったかをざっくりと理解してもらい、サービスに興味を持ってもらうことを目的としています。そのため、変更点を網羅することを優先します。 2024/09/22 ~ 2024/09/28 の変更 Wrangler 3.78.12 パッチアップデート Queues が正式に GA(一般提供)となったことを反映し、警告メッセージから「ベータ」という記載が削除されました。 3.78.11 パッチアップデート wrangler設定ファイルで[routes]が変更された際に、その設定を自動的に検証する機能が追加されました。 3.78.10 パッチアップデート nodejs_compatフ
Two months ago, we open-sourced RisingWave, a cloud-native streaming database. RisingWave is developed on the mission to democratize stream processing — to make stream processing simple, affordable, and accessible. You may check out our recent blog, document, and source code for more information about RisingWave. Rome was not built in a day, and neither are database systems. We started developing
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く