[B! 監視] tk-1124のブックマーク

あと2時間でElastiCacheのメモリが枯渇！そのときあなたは何をしますか？

突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。さて、この状況におかれたあなたは何をしますか？はじめにモバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、どのような観点で問題を切り分けていったのか、トラブルシュートのプロセスどのような準備(負荷テスト)をしていれば防げるのかという話をし

tk-1124 2020/12/18

監視

リンク

3〜4時間でAWSの監視系のサービス一気に学べたらコスパ良いと思いませんか | DevelopersIO

突然ですが、以下の機能がそれぞれどういうものかすべてご存知でしょうか？ CloudWatch ServiceLens X-Ray CloudWatch Contributor Insights CloudWatch Synthetics CloudWatch Container Insights CloudWatch Logs Insights CloudWatch メトリクス Metric Math 検索式カスタムメトリクス CloudWatch ダッシュボード CloudWatch 異常検出（Anomaly Detection） CloudWatch 埋め込みメトリックフォーマット CloudWatch アラーム異常検出に基づいたアラーム複合アラーム私はわからなかったですね。ここ 1〜2年のCloudWatch系のアップデート量は凄まじいなと個人的には思っていて、Cloud

tk-1124 2020/09/18

リンク

障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳

先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。今回のスコープの外実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。まずissueを作ると良い本題です。トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g

tk-1124 2020/04/30

リンク

書籍「Webエンジニアのための監視システム実装ガイド」発売！

システム監視の入門書籍を書きましたわたしが執筆したWebエンジニアのための監視システム実装ガイドが2020/3/24に発売されますました。予約受付中です。物理書籍・Kindle共に販売中です。 PDF版なら検索もできちゃいます。 ※このエントリを書いている時点でまだ表紙がfixしていませんが、黒バックにウミガメ写真になる予定です運用監視の会社でCTOとして勤続12年の知見を詰め込んだ、システム監視について幅広く取り扱った実践的な入門書です。読者の方に体系的な知識と価値基準を獲得してもらえるよう努めました。監視テクノロジの歴史や特徴、監視システムの基本動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、Chaos Engineering、監視方式の

tk-1124 2020/03/04

リンク

システムの複雑性と戦う方法 - CARTA TECH BLOG

こんにちは。Zucksでエンジニアをやっています@karahiyo_nです。先日社内向けに「Zucksで働き学んだ成果に繋がるプラクティス」という発表を行いました。今回はその一部を紹介したいと思います。発表では6年間でシステム構成がどう変わってきたのかと実際にやってきたタスクを紹介しつつより妥当な意思決定をするためにより早く価値を提供できるようにシステムの複雑性と戦う方法などいくつかプラクティスを紹介しました。今回はその中のひとつ「システムの複雑性と戦う方法」について書きたいと思います。対象のシステム像元の発表ではZucksのシステムを取り上げて解説したのですが、ここでは次のようなシステムをイメージしてください。非常に高いサービスレベルが求められるシステム(例えばAmazon Compute SLA相当) 低レイテンシ、高トラフィック(で、さらに増加傾向) 機能要望は尽

tk-1124 2020/02/03

リンク

AWSでAZ障害が起きたのでなるべく影響を受けない構成の考えを書いておく - なんかかきたい

AZ障害は受け入れるしかないクラウド時代のインフラただの日記。今日の昼、AWSを利用している人たちは大変だったところもあると思う。 AZの一つが丸々機能しなくなる大きなAWSの障害があり、AWSを利用して運用されていたサービスは多かれ少なかれ影響を受けることになった。完全に雰囲気で書いてしまうが、今回のAZ障害で影響を受けたサービスは思ったより多かったように感じる。というのもAWSではアベイラビリティーゾーンの障害は発生するものと考え、本番運用するのであれば、マルチAZ構成を取るのがベストプラクティスとされているので、マルチAZ構成を取っていれば影響なんてないんじゃないの普通、と思ってしまうと思う。インフラ屋さんでもそう思ってしまうし、インフラ屋さん以外ならなおさらなんで重くなるのかわからないと思う。幸い自分の運用しているサービスでは影響が軽微だったので、完全に想像にはなって

tk-1124 2019/08/25

リンク

バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。過去の記事はこちらにあります。運用に備えてバッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。プリモーテムポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

tk-1124 2019/04/17

リンク

アプリケーション監視のパターン「Health エンドポイントパターン」を実践する | 書籍『入門監視 ―モダンなモニタリングのためのデザインパターン』を読んで - BASEプロダクトチームブログ

出典： https://unsplash.com/photos/JKUTrJ4vK00 BASE BANK株式会社でソフトウェアエンジニアをやっている東口（@hgsgtk）です。即時に資金調達ができる金融サービス「YELL BANK(エールバンク)」というプロダクトを開発・運用しています。さて、日々、ユーザーに使っていただくサービスを運営していく中で、「サービスを安定的に提供できているか」という観点において、監視する技法について関心があります。そんな折、『入門監視――モダンなモニタリングのためのデザインパターン』という書籍が最近発売され、世間的にも監視について、関心が高まっているかと思います。今回は、この書籍の中から、実際に業務で実践していた「Health エンドポイントパターン」について、実践例と書籍の内容の深掘りを含めて紹介しようと思います。また、Mackerel Meetu

tk-1124 2019/03/07

リンク

入門監視を読んで、「監視の民主化」に本気で向き合おうと思った話 - コネヒト開発者ブログ

こんにちは！待ちに待った2月です。何を待っていたか？フットボールネーション（１３） (ビッグコミックス)やブルーピリオド（４） (アフタヌーンコミックス)、BLUE GIANT SUPREME（７） (ビッグコミックススペシャル)が発売される月ということになります。嬉しい〜！の金城(@o0h_)です。さて。 (ほぼ)ちょうど1ヵ月前に出た「入門監視」は、いろいろな方面で話題になりました。既に色々な書評やまとめが出回っていて、反響の大きさが感じられますね！ www.oreilly.co.jp 弊社でも、会社の書籍購入補助を利用して即予約 & 入手をしました。この本からは非常に多くの学びや示唆を得られたと感じています。先日、その内容・感じたことを、社内LT会で共有しました。発表内容を踏まえつつ、読後に自分なりに考えさせられたことをまとめてみたいと思います。ただしスライドに含

tk-1124 2019/02/19

リンク

総務省のIoT機器調査は「監視社会」の始まりか--議論が起きた理由

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます本連載「企業セキュリティの歩き方」では、セキュリティ業界を取り巻く現状や課題、問題点をひもときながら、サイバーセキュリティを向上させていくための視点やヒントを提示する。政府がサイバー攻撃対策の一環として、国内のIoT機器に対して簡単なパスワード（脆弱なパスワード）が用いられていないかを調査し、ユーザーに注意喚起することを発表した。それを受けて「『通信の秘密に抵触の恐れ』無差別侵入し調査へ」といったメディアの報道があり、「総務省自身が不正アクセス禁止法や憲法にも記載されている通信の秘密を侵害するのか？」などという意見が多数噴出し、物議を醸している。この報道のタイトルや概要だけを聞くと、一般の人々は政府が家庭のIoT機器をハッキングし、そ

tk-1124 2019/02/15

リンク

Elastic Stackで簡単！Dockerコンテナ監視ダッシュボード作成 - Taste of Tech Topics

こんにちは、CI/CDツールなどを活用し、DevOps推進活動などに携わっている横山です。本記事は、Docker Advent Calendar 2018 - Qiitaの20日目です。はじめに Elastic Stackを使うと、簡単にDockerコンテナの監視ダッシュボードが作成できるので、今回はその紹介をしたいと思います。きっかけとしては、「開発環境で立ち上げている複数コンテナの問題調査を楽にしたい」というのがあります。最近、開発環境に複数のコンテナを立ち上げて開発メンバーに提供していますが、開発メンバーから「重たいので環境を確認してほしい」といった声が上がってきます。その際、どのサーバのどのコンテナに問題が発生しているのか確認したいですが、その都度サーバに入って、docker statsなどのコマンドで確認するのはやや面倒です。そこで、コンテナの監視ダッシュボードを作って、

tk-1124 2018/12/21

リンク

O'Reilly Japan - 入門監視

あなたのシステムはきちんと動いていると言えますか？　本書は、システムのどの部分をどのように監視すべきか、また監視をどのように改善していくべきかについて解説する書籍です。前半で監視のベストプラクティス、デザインパターン／アンチパターンを示して、監視の基本原則を詳しく説明し、後半でフロントエンド、アプリケーション、サーバ、ネットワーク、セキュリティの各テーマで強力な監視の基盤を設計して実装するための方法を示します。監視対象が変化し、システムアーキテクチャが進化する中で、従来から変わらない監視の基本を示しながら、時代に合った監視の実践を解説する本書は、監視についての理解を深めたいエンジニア必携の一冊です。日本語版では、松木雅幸（@songmu）氏による監視SaaSの導入や活用方法を付録として収録しています。正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載して

tk-1124 2018/12/19

リンク

クラウド時代のサーバー監視における、良いメトリックの4要素 - Part1 - ログミーTech

2018年9月22日、Japan Azure User Groupが主催するイベント「Japan Azure User Group 8周年イベント」が開催されました。JAZUG設立8周年を記念した本イベント。Microsoft Azureを用いてサービス開発を行うエンジニアたちが一堂に会し、自身の経験と知見を元に新たな活用法などを語ります。プレゼンテーション「クラウド時代のモニタリング」に登場したのは、DatadogのMasahiro Hattori氏。講演資料はこちらクラウド時代のモニタリング Masahiro Hattori 氏：DatadogもAzureの連携機能とかにかなり力を入れてやっているんですが、その前に、とくに最近クラウドだけではなくて、コンテナという話が進んできて、アーキテクチャの大きな変化が進んでいる状況です。日々お客さまと接していて、みなさまに共有できるよう

tk-1124 2018/10/27

監視

リンク

エンジニア組織としての監視文化の作り方 | Nagisaのすゝめ

エンジニア組織としての監視文化の作り方 Nagisa インフラエンジニアの榎戸です。今回は僕が入社してから一年が経ったので、僕が感じた事とやってきたことを監視に絞って書きたいと思います。 ※また今回は技術的な内容についてはあまり触れておりませんのでご了承ください。入社時の状況今ではかなり改善できたので笑い話となりますが当時(昨年9月)はなかなか言葉には出しづらい状態でした。当時の状況監視はCloudWatchに数個 Nagiosとmuninが監視の役目を果たさず稼働している監視の重要性の認識不足障害が起きてから数時間後に気付く障害対応をすると感謝されながらランチに連れて行ってもらえるこんな状態でした。インフラエンジニアとして入社したのに障害対応をするとランチに連れて行ってもらえるという体験には驚きと動揺が隠せませんでした。今まで当たり前だった障害対応ですがお

tk-1124 2018/09/04

リンク

ブラウザのネットワークエラーをレポートさせるNetwork Error Loggingが来た - ASnoKaze blog

20180727追記 CORS対応が必要になりました asnokaze.hatena blog.com 20180703追記ドキュメントはhttps://w3c.github.io/network-error-logging/ にが移されました 20180608追記仕様上は、jsonの各値はハイフンではなく、アンダースコアを使用するようになります report-to => report_to max-age => max_age ... etc https://github.com/WICG/network-error-logging/commit/86c4d1c0fa4c5d5ca1d8bdcd9fa931e7e4ab65c2 こんな感じ nel: {"report_to": "network-errors", "max_age": 2592000, "include_subdomai

tk-1124 2018/05/29

リンク

PrometheusをDockerでさくっと動かしてコンテナで稼働するサービスの稼働監視 - Qiita

global: scrape_interval: 15s scrape_configs: - job_name: 'node' static_configs: - targets: - '172.19.0.8:9100' 必要最小限の設定です。上記は172.19.0.8の9100ポートで稼働するexporterから15秒間隔でデータをポーリングして収集する設定です。 job_nameは任意の文字列で指定可能で、重要なのはtargetsの設定箇所です。Prometheusサーバから接続する先のexporterの稼働IP:ポート情報が正しくないと監視できないので注意。 job_nameは後述のPromQLのフィルタリング条件として活用できる1つのラベル情報の扱いとなります。 Prometheus Serverを起動 Prometheusの公式のDockerイメージを使ってPrometheus

tk-1124 2018/04/11

リンク

25K request/secをさばいた「LINEのお年玉」のアーキテクチャの裏側 - LINE ENGINEERING

みなさんこんにちは、LINEのサーバーサイドエンジニアの長谷部です。普段は、最近でいうとLINE Login や LINE Customer Connect などの開発を担当しています。 2018年の年始に LINEのお年玉というイベントを実施し、その開発を担当しました。今回の記事では、LINEのお年玉のアーキテクチャの紹介や、当日実際に発生した問題(サービス過負荷起因のkafka consumer遅延)などの振り返りについて書こうと思います。 LINEのお年玉とはお年玉イベント期間中に、お年玉とLINEスタンプをセットで「お年玉つきスタンプ」として販売しました。対象スタンプを購入したユーザーさんは、スタンプ購入数 x 10個のお年玉が付与されます。こういったメッセージが受信されますユーザーは自分がもっているお年玉を友だちに直接送ったりグループに送信することができ、お年玉を受け取

tk-1124 2018/02/13

リンク

OSS運用監視ソフト注目の10製品徹底比較 2016年版

OSS運用監視ソフト注目の10製品徹底比較 2016年版：実際に検証済み！OSS徹底比較（1）運用監視編（1/8 ページ）運用監視をはじめ、多くの企業が取り入れているOSS（オープンソースソフトウェア）。目的に応じて最適なものを選択し、うまく使いこなせば強力な武器となるが、それができなければかえって手間や混乱の原因にもなりかねない。本連載では注目のOSSをピックアップして実際に検証し、基本的な優位性、劣位性を明確化した。ぜひOSSを選ぶ際の参考にしてほしい。 2014年9月、「徹底比較！運用監視を自動化するオープンソースソフトウェア10製品の特徴、メリット・デメリットをひとまとめ」を公開してから1年半が経過している。その間にもシステムの利用規模は拡大を続けており、それとともに肥大化する運用業務の効率化は急務となっている。「OpenStack」や「Docker」などIaaS／PaaS