CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。
2023年は「Cloud Run を触って覚える」をテーマとした ひとりアドベントカレンダー を開催しており、Cloud Run のさまざまな機能や Cloud Run でよく使う構成などをご紹介しています。 23日目は Cloud Run のモニタリングとロギングの基本的な機能について紹介します。モニタリングとロギングの機能は多機能ですが情報量も多いので、全体感が掴めるようにまとめてみました。 Cloud Run の概要は「gihyo.jp」で解説していますので、こちらもぜひご覧ください。 Cloud Run コンソールで簡単にログやメトリクスを確認できる Cloud Run では、アプリケーションへのカスタマイズを行わずとも、自動的に出力されるログや自動的に収集されるメトリクスがあります。そのため、モニタリングのための特別な設定や構成は必要ありません。 そしてそれらの情報は Cloud
SRE チームの市川恭佑です。 先日、CloudNative Days Tokyo 2023 のプロポーザルを提出したのですが、残念ながら採択に至らなかったので、今回は宇宙最速の(?)供養エントリになります。 シェア・投票など、ご応援をくださった皆様にはこの場でお礼を申し上げます。ありがとうございました。 event.cloudnativedays.jp 背景とか、経緯とか 筆者は、カヤックの SRE チームにちょうど2年ほど在籍しています。とは言っても半年ぐらいは学生アルバイトだったので、正社員としては1年半ほどです。カヤックに入る前も、いくつかの会社で IT エンジニアとしてインターンやアルバイトをしていました。 という訳で、何だかんだ仕事で使うプログラムを書き始めてトータル4年半ほどになりますが、そのうち3年半ほどは全て Amazon Web Services(AWS)でホストされる
こんにちは、ミラティブのインフラを担当している清水です。 ミラティブではクラウドに Google Cloud を利用しているのですが、稀にインスタンスの性能劣化が発生し動かしているアプリケーションの応答時間が長くなることがあります。 非同期な処理の場合は一時的にタスクキューの時間あたりの処理数が減るものの、遅延を許容できる機能であれば時間経過で回復するのでシステムを継続稼働できます。 一方で、web サーバのように同期処理の場合はリクエストを時間内に返すことができずに timeout したりだとか、worker が埋まって新たにリクエストが返せなくなったりと、正常にリクエストを返すことができずにユーザのクライアントにエラーが返ってしまします。 そこで、今回はクラウドが不調になったときに web サーバへ流れるリクエストの流量を動的に制御し、一時的にリクエスト数を減らしてユーザのクライアント
こんにちは。インフラエンジニアの gumamon です! 最近はSRE的なことも ちょこちょこ やらせて頂いています。 NewRelic、Datadog、モダンな監視(オブザーバビリティ)って良いですよね。 弊社もKubernetes(k8s)等を利用した環境が増えてきた折、そろそろ必要になってきた(と思っている)のですが、NewRelic、Datadog等のクラウドサービスはランニングコストが安くない。 そこで内製できないかやってみよう!ということになり、試行錯誤をした結果どうにか表題の構成で作ることができたのでご紹介をしたいと思います! この記事では、k8sを観測対象とし、オブザーバビリティを実現した際のアーキテクチャ構成、並びに四苦八苦する中で得た観測の勘所(私見)についてご紹介します。 目次 目次 オブザーバビリティとは オブザーバビリティ(OSS)の実現事例 全体構成 Elast
はじめに Kubernetes を利用していると、カスタムリソースやカスタムコントローラーをして使用して機能を追加するケースが出てきます。それらのメトリクスを取得したい場合は対応する Exporter を自作するなりして用意する必要があります。 そこで、kube-state-metrics でもカスタムリソースをサポートするための機能(Custom Resource State Metrics)が v2.4.0 から追加されました。該当機能のリリース当初はそこまで使いやすい機能ではなかったのですが、執筆時点の最新版の v2.8.2 ではだいぶ改善されて使いやすくなりました。 ただ、ドキュメントがそこまで整備されておらず、ソースコードを確認しながらでないと使うのが難しいので記事にまとめてみました。 kube-state-metrics とは 以下が公式の Overview から一部抜粋してき
はじめに 皆様こんにちは。イノベーションセンター SkyWay DevOps プロジェクト所属の @sublimer です。 私達のチームは、1月31日に新しいSkyWayをリリースしました。 skyway.ntt.com 新しいSkyWayでは、公式サイトや、アプリケーションを管理するコンソールも全く新しいものとなっています。 今回は、新しいSkyWayの公式サイトやコンソールの死活監視に利用している、Google Cloudの「稼働時間チェック」機能についてご紹介します。 稼働時間チェックとは 稼働時間チェックは、Google CloudのCloud Monitoringが提供している機能の1つです。 予め設定したエンドポイントに対して、HTTP・HTTPS・TCPのいずれかのプロトコルで定期的にリクエストを送り、そのレスポンスがアラート条件を満たした場合に通知してくれるサービスです。
Autify x ZOZO x dipさんが共同開催の「AWSコスト削減事例祭り」というイベントの参加レポートとなります。 アーカイブ 塵も積もれば山となるコスト削減の話(Autify 松浦さん) Autifyさんはソフトウェアのテストをノーコードで作成することができる製品を提供。 元々Webサービスに対するテストを作成できる製品があり、その後にモバイルアプリをテストできるサービスをリリース。 以下のような構成がAWS上で動いている。 まずは、ワーカーとテストデバイスをFargateに移行してコストを最適化。 この最適化のおかげでお客様が増えれば売り上げも増えるような仕組みとなった。 モバイルアプリに対するテストをするサービスをリリースしたことで、急にコスト増加。 原因は以下 開発用インスタンスの一時的な軌道 ユーザが少なくコスト効率が悪い Web障害からの学びで大きめのインスタンスを使っ
はじめに 先日私が書いたこちらの記事がQiitaのトレンド1位になりました。ありがとうございます! 今回はこちらの構成を作成するにあたって参考になった書籍を紹介していこうと思います。どれも大変素晴らしいので、是非読んでみてください。 ただ、何よりも参考になったのは 公式ドキュメントとそのサービスを実際に触ってみる事です。英語のドキュメントしか無いものも多く大変だとは思いますが、気になったサービスは是非一度公式ドキュメントを見ながら触ってみてはいかがでしょうか。 ※先日の記事で紹介した"ぼくのかんがえたさいきょうの"運用・監視構成をもう一度載せておきます。 監視 全般 入門 監視 言わずもがなオライリーの本です。こちらは監視のアンチパターンとデザインパターンと、何をどのように監視すればいいかを学べます。 監視を入門する際はまずこちらの本から読むのがおすすめです。監視についての基本的な考え方が
はじめに 入門監視をはじめ一般的な監視に関するプラクティスは出回っているものの、AWSで具体的に何を監視するか?そのとっかかりについてはあまり出回っていないような気がします。 AWSの監視ってみんな何監視してるんすか…っていうぐらい実例あまり見つからないな。門外不出?— mazyu36 (@mazyu36) 2023年2月14日 どこまで監視するかは基本的にシステムの特性によると思います。一方でAWSのサービスごとにシステムによらずよく監視で使う項目というのもあるかと思います。 今回は過去の経験をもとに、最低限この辺りは監視することが多いかなというものをまとめてみます。全体像としては以下になります。 最低限これは監視しないとダメでしょ、とかこれは不要でしょ、などなどあるかと思います。そういうのがあればぜひコメントいただきたいです。 はじめに 「監視」について 前提 1-1. Webサービス
この記事は新野淳一氏のブログ「Publickey」に掲載された「ChatGPTにKubernetesのアラート対応を教えてもらう。監視ツールとChatGPTをつなげる「Kubernetes ChatGPT Bot」登場」(2023年1月16日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 オープンソースで開発されているKubernetesのモニタリングツール「Robusta」の開発者Natan Yellin氏は、AIを利用して人間とチャットで会話をする能力を備える「ChatGPT」をRobustaと統合した「Kubernetes ChatGPT Bot」を公開しました。 Kubernetes ChatGPT Botは、発生したアラートの内容を自動的に受け取り、対処方法をAIがチャットで教えてくれるというものです。Natan Yellin氏は「もう、一人でやみくもに
株式会社ヘンリーでSREをやっているTODA(@Kengo_TODA)です。弊社ではGoogle Cloud Platform(GCP)を活用してサービスを構築しており、またサーバサイドにはKotlinを利用しています。Cloud Runで動くJVMサービスの監視にログベースの指標が便利だったので紹介します。 何をもってJVMで駆動するサービスを「メモリが足りていない」と判断するか Cloud Runのメモリ監視で最も利用しやすいのは、Cloud Monitoringでメモリ利用率などを見ることでしょう。次に示す図のように、サービスごとのデータを取ってグラフ化できます。 図1 メモリ利用率をプロットしてみた ではこのグラフから何がわかるのでしょうか?例えば下側に紫色で示されたCloud Runサービスはメモリにずいぶんと余裕がありそうです。常時この状態であれば、メモリ割当量を減らしても良さ
新しい GitOps オブザーバビリティ ダッシュボードを使用して、Kubernetes 構成を大規模に管理する ※この投稿は米国時間 2023 年 1 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 プラットフォームの管理者やオペレーターの間では、構成(デプロイメント、ポリシー定義、Helm チャート、ConfigMap など)を複数の Kubernetes クラスタにわたって一貫して同期する手段として、Config Sync がすでに使用されています。ところが、問題が 1 つ解決されて歓喜している一方で新たな問題が生じています。それは、構成の同期や障害を複数のクラスタにわたってリアルタイムで可視化することです。大規模な運用には、多数の懸念事項が伴います。たとえば、「構成は同期されているか」「リソースの調整はとれているか」「クラスタ内のどの構成の変更がエ
本文の内容は、2023年1月25日にJAVIER MARTÍNEZ が投稿したブログ(https://sysdig.com/blog/troubleshoot-kubernetes-oom)を元に日本語に翻訳・再構成した内容となっております。 はじめに Kubernetesを使用する場合、Out of Memory (OOM) エラーとCPUスロットリングは、クラウドアプリケーションのリソース処理で主に頭を悩ませる問題です。なぜでしょうか? クラウドアプリケーションにおけるCPUとメモリの要件は、クラウドのコストに直接結びついているため、これまで以上に重要です。 リミットとリクエストを使用すると、リソースの枯渇を防ぎ、クラウドのコストを調整するために、Pod がメモリと CPU のリソースをどのように割り当てるべきかを設定できます。 ノードに十分なリソースがない場合、Podはプリエンプショ
※この投稿は米国時間 2022 年 12 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 「ユーザーの関心は、動作していない理由ではなく、動作していないことにある。」 もしこれが真実だと考えるなら、なぜユーザーが関心を持っていることをモニタリングしないのでしょうか?どのような経緯で現状にたどり着いたのでしょうか? まず、オペレーション担当者がインフラストラクチャに集中していて、問題が発生しているというお客様からの連絡を待つ従来のモデルを見ていきましょう。最初のうちは、合理的な推測と価値観によって、以下の考え方が直感的に理解できます。 確実さはあいまいさに勝るため、直接的に一番理解していること、つまりインフラストラクチャに焦点を当てたい。 目的は、問題の原因がオペレーション担当者の責任なのか、それとも他にあるのかを把握することである。 インフラストラクチャに
「eBPF」がクラウドネイティブを超強力にする。eBPFとは何か? 何ができて、どんな利点があるのか? Cloud Native Days Tokyo 2022基調講演から 2022年11月21日と22日の2日間、クラウドネイティブにフォーカスしたイベント「Cloud Native Days Tokyo 2022」が都内およびオンラインのハイブリッドで行われました。 22日の基調講演に登場したのは、Cilium、Hubble、TetragonなどeBPFを中心としたオープンソースを開発しているIsovalentのTracy P Holmes氏。 Homes氏は、いまクラウドネイティブ関連のテクノロジーとして最も注目されていると言ってよい「eBPF」を紹介するセッション「Cloud Native Superpowers with eBPF」を行いました。 eBPFとはどのようなテクノロジーな
Kubesharkとは 図は公式 より抜粋 KubesharkはKubernetesのための観測性・監視ツールで、マイクロサービスの動的解析、異常の検出などを実現するツールです。 Wireshark、BPF Compiler Collection(BCC)ツールなどを組み合わせた、Kubernetesを意識したものとお考えください...と説明されています。 Kubesharkは、クラスタ内の一部またはすべてのTCPトラフィックをスニッフィングし、PCAPファイルに記録し、HTTP1.0, HTTP1.1, HTTP2, AMQP, Apache Kafka, Redisなどのアプリケーション層プロトコルを分析できるとのことです。 今回はHTTPに絞って実際に環境を動かしてみて、トラフィックを覗いてみたいと思います。 Kuberentesクラスターの用意 まず、Kuberentesクラスター
ITシステムが地方に散在する場合、Dockerに精通した管理者が不在であることも少なくありません。Dockerに詳しくない人でも、効率よく、かつ、ミスなく管理するためには、GUI管理・監視ツールの導入が必要になります。特に、近年では、クラウド基盤の導入が進み、IT部門だけでなく、ユーザー部門などが、セルフサービスポータルのダッシュボードのWebユーザーインタフェースなどを使って、みずからサービスを利用することも増えてきました。現在は、OpenStackなどに代表されるクラウド基盤ソフトウェアは、Linuxのハイパーバイザー型仮想化技術であるKVMをベースとした仮想マシン(インスタンス)の管理が中心ですが、Dockerにおいても、クラウド基盤に見られるセルフサービスポータルのような、直観的で分かりやすい管理画面が求められています。2015年9月中旬現在、Dockerコンテナを簡単なGUIで操
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く