Observability を実現するためにアセットを活用しよう(AWS 秋の Observability 祭り ~明日使えるアセット祭り~ )
カヤックSREの池田です。 先月は、カヤックのプロダクトの一つ『Tonamel』で導入したエラーバジェット算出ツール『shimesaba』の話をしました。 techblog.kayac.com github.com 今回は、実際にどのようにSLI/SLOを運用しているのか?という内容をshimesabaを使った設定例を交えつつ話します。 SLI/SLOの運用にお悩みの方の助けになれば幸いです。 最初のSLI/SLOはどう決定したのか? SLI/SLOの運用を始めるにあたって、多くの人が悩むのは以下の2つだと思います。 一体何をSLIとすれば良いのか? 最初のSLOはどのくらいにしたら良いのか? つまりは、最初の1歩をどうしたら良いか?と言う話ですが、こちらに関しては2つ参考になるものがあります。 『SLO決定のためのArt of SLO』 https://sre-next.dev/2022
Netflixのパフォーマンスエンジニアである筆者からの、topコマンドなどで表示されるCPU使用率(%CPU)は、いまや本当の使用率を表しておらず、チューニングなどのための指標として使えないという指摘。なぜそうなってしまったのか、何を見れば本当のCPU使用率がわかるのかをわかりやすく解説した記事。 私たちみんながCPU使用率として使っている指標は非常に誤解を招くもので、この状況は毎年悪化しています。CPU使用率とは何でしょうか?プロセッサーがどのくらい忙しいか?違います。CPU使用率が表しているのはそれではありません。私が話しているのは、あちこちで、あらゆる人たちに、あらゆる監視製品で、あるいはtop(1)でも使われている、"%CPU"という指標のことです。 あなたの考えているであろうCPU使用率90% : 実際 : "stalled"(訳注 : 以下ストールと言う)とは、プロセッサーが
このページは移転しました。3秒後にジャンプします。 ジャンプしない場合は、以下のURLをクリックしてください。 Alibaba Cloudトレーニング はじめに 本コースについて 目標 受講にあたり準備するもの 受講方法 受講テキスト一式 アンケート 動画テキスト DingTalkグループへの参加方法 本講座の開講履歴 はじめに オフラインでトレーニングが開催できない状況が続いていますので、新たにトレーニング開催方法を模索しています。実験的にテキスト一式と動画テキストを公開することにしました。 オンデマンドで各自で自習される方は、好きな時間に実施出来るメリットが生まれますが、不明点などは自力で解決する必要があります。(ベストエフォートでの回答窓口は用意します) 定期的に開催されるトレーニングコースでは、講師が適時に回答しますので、スムーズにトレーニングを受講していただく事が可能です。 受講
実践的インフラ監視&運用 - 4000万人以上のユーザーに快適なサービスを提供するピクシブの裏側 大規模サービスを安定運用するコツってなに?実運用に基づく知見をピクシブ株式会社のインフラエンジニア、末吉さんと小出さんに聞きました。 ピクシブのサービスを支えるサーバーは大部分がオンプレミス 監視はNagiosとMuninでシンプルに 多数のリリースを支える独自のデプロイ手法 運用上のスペックは開発者との綿密なやりとりで決める 開発者と“温度感”を共有したい システム運用は、生き物です。 人気が出ればリクエスト数は急上昇。経年劣化でサーバーが壊れることもある一方で、次々と新しいサービスも展開しなければなりません。規模が大きくなると、システムを障害なく運用することは至難のワザです。 大規模サービスを安定運用するコツは何か──その秘訣を探るべく、ピクシブ株式会社のインフラチームで活躍する2人に疑問
#翻訳 https://www.scalyr.com/blog/the-10-commandments-of-logging/ CC BY 4.0 @Brice Figureau 1.自分でログの書き出しをしない printfをつかったり、ログエントリを自分でファイルに書き出したり、ログローテションを自分でやったりしてはいけない。運用担当者にお願いして、標準ライブラリやシステムAPIコールを使うようにしよう。そうすれば、実行中のアプリケーションが他のシステムコンポーネントと適切に連携して、特別なシステム設定なしに適切な場所またはネットワークサービスにログを記録できるようになる。 ロギングライブラリを使いたければ、特にJavaの世界にはLog4j, JCL, slf4j, logbackなど多くのものが存在する。私はslf4jとlogbackを組み合わせて使うのが好きだ。とてもパワフルで、設
はじめに Raspberry Piで計測した温度・湿度をMuninでグラフ化していたが, 今どきのツールでグラフを見たかったので, Prometheusに移行した. 環境 Raspbian 9.1 (stretch) 温度・湿度の計測はUSBRHを使用 設定方法 Prometheusをインストール Debian系はapt-getでPrometheusとNode exporterをインストール可能なので, 簡単にメトリクスが自動取得されてグラフが見える. $ sudo apt-get install prometheus $ systemctl status prometheus $ systemctl status prometheus-node-exporter なお, リポジトリにあるPrometheusのバージョンは古い (1系) ため, 新しいバージョン (2系) を使いたい場合は
概要 Pull型の監視サービスであるPrometheusの使い方を説明します。 環境 Prometheus 2.11.1 Node exporter 0.18.1 アーキテクチャ Prometheusのアーキテクチャはこの様になっています。 ref: Overview | Prometheus 大まかな特徴としては以下です。 Pull型(over HTTP)の監視サービス 独自のデータストアを持つ PromQLという独自の柔軟なクエリを持つ 監視対象ではexporter(マシンやコンテナのステータスを返す口)を用意して、PrometheusServerがPullする アラートはAlertmanagerという別コンポーネントで対応 可視化はGrafanaを使う 事前準備 今回は Prometheusがステートを持つ NodeはコンテナでなくVMを想定している ということでVagrantを使い
はじめに Mackerel というと、皆さんこんなイメージをお持ちかもしれません。 エージェントを入れないといけない サービス側で色々設定しないといけない 今ある値をグラフにして欲しいだけなのに こんな風に思っておられるかもしれません。ですが Mackerel は独自のグラフを作るのであれば、大した設定もいらないし、エージェントをインストールする必要もないのです。 本記事では、今ある値を最速でグラフにする手順を示したいと思います。なお Mackerel のアカウントは既にある前提で説明します。今回は Twitter フォロワ数の増加をグラフにしてみたいと思います。 筆者は普段 Twitter でフォロワ数などを全く気にしない人なのですが、先日以降 Twitter の通知欄に「フォローされた」通知が沢山くるのを確認していました。 昨日は自分がプログラミングを始めた頃からずっと尊敬しているプロ
docker環境で開発を行っていると、いろんなログをコンテナに入って閲覧したりするのがめんどくさいし、見ずらいので、どこか一箇所で見れるようにしたいと思い、docker作ってみました。 一式をGitHubに公開してますので、是非。 https://github.com/yuya-sega/log-viewer/ 構成 apache 2.4 postgres 12 fluentd 1.6.2-1.0 elasticsearch 7.3.2 kibana 7.3.2 まずは起動してみる $ git clone https://github.com/yuya-sega/log-viewer.git $ cd log-viewer/ $ docker-compose build && docker-compose up ~~ 略 ~~ kibana_1 | {"type":"log","@time
freee では仮想マシンのインフラ監視に Mackerel を使っていますが、Kubernetes を使っているところは前例にとらわれずゼロベースで見直そうとしています。現状は Elastic Stack と Mackerel のハイブリット構成になっています。 Elastic Stack による Kubernetes モニタリングシステムの紹介 - freee Developers Blog どの SaaS を使うかを決める前に、そもそも Kubernetes の何を監視すればいいのか? というところから考え直しています。宣言的なマニフェストにより Kubernetes が自律的にあるべき状態を保ってくれるのであれば、これまでの監視とは異なってくるはずです。 監視の観点として、ここでは通知レベルを用いて次の 3 つに分類します。 None: メトリクスは収集するが通知しない Notic
本番環境の監視をZABBIXからPrometheusに切り替えてから3か月程度経過しました。 今回は Prometheus 導入に関してハマったところ 現在のPrometheus活用状況 といった所を紹介したいと思います。 「Prometheusって何?」という方はこちらをご覧ください。 tech.willgate.co.jp Prometheus導入でハマったところ メール送信設定 Rプロキシ経由にする 現在のPrometheus活用状況 現在の構成 ECインスタンスの監視 設定のバージョン管理 種類豊富なexporter 柔軟なPromQL Grafanaとの組み合わせ まとめ その後の取り組み(2019/11/12 追記) Prometheus導入でハマったところ 紹介するところ以外でも色んなところでハマったのですが、代表的なところを紹介します。 メール送信設定 Alertmanag
こんにちはアプリケーションエンジニアのid:t_kytです。 好きなMackerelプラグインはmackerel-plugin-accesslogです。 今日は監視設計の話をしたいと思います。タイトルにもあるように使うツールはMackerelで、本文にもMackerelの用語が当然のように出てくるので使ったことない方は少しわかりにくいかもしれません。ですが考え方などは別のツールでも応用できると思いますので監視の設計に興味があれば読んでもらえるとうれしいです。 mackerel.io 抱えていた課題 前提として 我々のチームは複数のサービスを見ている Mackerelのオーガニゼーションは全社共通で、同じオーガニゼーションに我々のサービス以外にも他チームが管理しているサービスがある という状況があります。今回のエントリでは暗黙的に以上のような制約が入っているため、例えば1サービスしか対象の無
1. 1Copyright © Acroquest Technology Co., Ltd. All rights reserved. サーバーレスなシステムのがんばらない運用監視 ~ Monitoring から Observability へ ~ 2018/09/29 Acroquet Technology Co., Ltd. 鈴木 貴典 Serverless Conf Tokyo 2018 2. プロフィール Copyright © Acroquest Technology Co., Ltd. All rights reserved. 2 ◼ 所属 • Acroquest Technology 株式会社 • 「働きがいのある会社」(GPTW) 3度目の1位 受賞 ◼ 主な業務内容 • テクニカルアーキテクト • IoTサービス開発 • ビッグデータ/ストリームデータ関連開発 Twitt
オウチーノのSREチームの尾形です。 今回はオウチーノのサーバー監視の仕組みについてご紹介したいと思います。 経営方針が変わる前のオウチーノのサーバー監視は全て外部会社にお願いしていまして、その時は個別の依頼ベースで監視対象を追加・削除してもらっていました。自分達で管理していない状態なので、監視項目に漏れがあったり柔軟な設定が出来ない、Opsへの認識が薄くなるなどの問題がありました。そこで自分達のシステムは自分達で面倒を見ようということで去年から監視をする仕組みを構築し始めました。外部会社ではZabbixを利用していたので、その設定をそのまま頂くことも出来たのですが秘伝のタレを頂いても管理が出来ないということでゼロから構築することを決めました。 SREチーム以外にも見てもらえるグラフを表示出来るツールということでGrafana+Prometheusで構築しました。オウチーノではAWSを利用
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く