タグ

監視に関するtk-1124のブックマーク (18)

  • あと2時間でElastiCacheのメモリが枯渇!そのときあなたは何をしますか?

    突然ですが... あなたは、あるゲームプロジェクト番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。 さて、この状況におかれたあなたは何をしますか? はじめに モバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。 新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。 この記事は、あるゲームプロジェクト番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、 どのような観点で問題を切り分けていったのか、トラブルシュートのプロセス どのような準備(負荷テスト)をしていれば防げるのか という話をし

    あと2時間でElastiCacheのメモリが枯渇!そのときあなたは何をしますか?
  • 3〜4時間でAWSの監視系のサービス一気に学べたらコスパ良いと思いませんか | DevelopersIO

    突然ですが、以下の機能がそれぞれどういうものか すべて ご存知でしょうか? CloudWatch ServiceLens X-Ray CloudWatch Contributor Insights CloudWatch Synthetics CloudWatch Container Insights CloudWatch Logs Insights CloudWatch メトリクス Metric Math 検索式 カスタムメトリクス CloudWatch ダッシュボード CloudWatch 異常検出(Anomaly Detection) CloudWatch 埋め込みメトリックフォーマット CloudWatch アラーム 異常検出に基づいたアラーム 複合アラーム 私はわからなかったですね。ここ 1〜2年のCloudWatch系のアップデート量は凄まじいなと個人的には思っていて、Cloud

    3〜4時間でAWSの監視系のサービス一気に学べたらコスパ良いと思いませんか | DevelopersIO
  • 障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳

    先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g

    障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
  • 書籍「Webエンジニアのための監視システム実装ガイド」発売!

    システム監視の入門書籍を書きました わたしが執筆したWebエンジニアのための監視システム実装ガイドが2020/3/24に発売されますました。 予約受付中です。 物理書籍・Kindle共に販売中です。 PDF版なら検索もできちゃいます。 ※このエントリを書いている時点でまだ表紙がfixしていませんが、黒バックにウミガメ写真になる予定です 運用監視の会社でCTOとして勤続12年の知見を詰め込んだ、システム監視について幅広く取り扱った実践的な入門書です。 読者の方に体系的な知識と価値基準を獲得してもらえるよう努めました。 監視テクノロジの歴史や特徴、監視システムの基動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、Chaos Engineering、監視方式の

  • システムの複雑性と戦う方法 - CARTA TECH BLOG

    こんにちは。Zucksでエンジニアをやっています@karahiyo_nです。 先日社内向けに「Zucksで働き学んだ成果に繋がるプラクティス」という発表を行いました。今回はその一部を紹介したいと思います。 発表では6年間でシステム構成がどう変わってきたのかと実際にやってきたタスクを紹介しつつ より妥当な意思決定をするために より早く価値を提供できるように システムの複雑性と戦う方法 などいくつかプラクティスを紹介しました。 今回はその中のひとつ「システムの複雑性と戦う方法」について書きたいと思います。 対象のシステム像 元の発表ではZucksのシステムを取り上げて解説したのですが、ここでは次のようなシステムをイメージしてください。 非常に高いサービスレベルが求められるシステム(例えばAmazon Compute SLA相当) 低レイテンシ、高トラフィック(で、さらに増加傾向) 機能要望は尽

    システムの複雑性と戦う方法 - CARTA TECH BLOG
  • AWSでAZ障害が起きたのでなるべく影響を受けない構成の考えを書いておく - なんかかきたい

    AZ障害は受け入れるしかないクラウド時代のインフラ ただの日記。 今日の昼、AWSを利用している人たちは大変だったところもあると思う。 AZの一つが丸々機能しなくなる大きなAWSの障害があり、AWSを利用して運用されていたサービスは多かれ少なかれ影響を受けることになった。 完全に雰囲気で書いてしまうが、今回のAZ障害で影響を受けたサービスは思ったより多かったように感じる。 というのもAWSではアベイラビリティーゾーンの障害は発生するものと考え、番運用するのであれば、マルチAZ構成を取るのがベストプラクティスとされているので、 マルチAZ構成を取っていれば影響なんてないんじゃないの普通、と思ってしまうと思う。 インフラ屋さんでもそう思ってしまうし、インフラ屋さん以外ならなおさらなんで重くなるのかわからないと思う。 幸い自分の運用しているサービスでは影響が軽微だったので、完全に想像にはなって

    AWSでAZ障害が起きたのでなるべく影響を受けない構成の考えを書いておく - なんかかきたい
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

    こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSREの15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
  • アプリケーション監視のパターン「Health エンドポイントパターン」を実践する | 書籍『入門 監視 ―モダンなモニタリングのためのデザインパターン』を読んで - BASEプロダクトチームブログ

    出典: https://unsplash.com/photos/JKUTrJ4vK00 BASE BANK株式会社でソフトウェアエンジニアをやっている東口(@hgsgtk)です。即時に資金調達ができる金融サービス「YELL BANK(エールバンク)」というプロダクトを開発・運用しています。 さて、日々、ユーザーに使っていただくサービスを運営していく中で、「サービスを安定的に提供できているか」という観点において、監視する技法について関心があります。 そんな折、『入門 監視――モダンなモニタリングのためのデザインパターン』という書籍が最近発売され、世間的にも監視について、関心が高まっているかと思います。 今回は、この書籍の中から、実際に業務で実践していた「Health エンドポイントパターン」について、実践例と書籍の内容の深掘りを含めて紹介しようと思います。 また、Mackerel Meetu

    アプリケーション監視のパターン「Health エンドポイントパターン」を実践する | 書籍『入門 監視 ―モダンなモニタリングのためのデザインパターン』を読んで - BASEプロダクトチームブログ
  • 入門監視を読んで、「監視の民主化」に本気で向き合おうと思った話 - コネヒト開発者ブログ

    こんにちは!待ちに待った2月です。 何を待っていたか? フットボールネーション(13) (ビッグコミックス)やブルーピリオド(4) (アフタヌーンコミックス)、BLUE GIANT SUPREME(7) (ビッグコミックススペシャル)が発売される月ということになります。 嬉しい〜!の金城(@o0h_)です。 さて。 (ほぼ)ちょうど1ヵ月前に出た「入門 監視」は、いろいろな方面で話題になりました。 既に色々な書評やまとめが出回っていて、反響の大きさが感じられますね! www.oreilly.co.jp 弊社でも、会社の書籍購入補助を利用して即予約 & 入手をしました。 このからは非常に多くの学びや示唆を得られたと感じています。 先日、その内容・感じたことを、社内LT会で共有しました。 発表内容を踏まえつつ、読後に自分なりに考えさせられたことをまとめてみたいと思います。 ただしスライドに含

    入門監視を読んで、「監視の民主化」に本気で向き合おうと思った話 - コネヒト開発者ブログ
  • 総務省のIoT機器調査は「監視社会」の始まりか--議論が起きた理由

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 連載「企業セキュリティの歩き方」では、セキュリティ業界を取り巻く現状や課題、問題点をひもときながら、サイバーセキュリティを向上させていくための視点やヒントを提示する。 政府がサイバー攻撃対策の一環として、国内のIoT機器に対して簡単なパスワード(脆弱なパスワード)が用いられていないかを調査し、ユーザーに注意喚起することを発表した。それを受けて「『通信の秘密に抵触の恐れ』無差別侵入し調査へ」といったメディアの報道があり、「総務省自身が不正アクセス禁止法や憲法にも記載されている通信の秘密を侵害するのか?」などという意見が多数噴出し、物議を醸している。この報道のタイトルや概要だけを聞くと、一般の人々は政府が家庭のIoT機器をハッキングし、そ

    総務省のIoT機器調査は「監視社会」の始まりか--議論が起きた理由
  • Elastic Stackで簡単!Dockerコンテナ監視ダッシュボード作成 - Taste of Tech Topics

    こんにちは、CI/CDツールなどを活用し、DevOps推進活動などに携わっている横山です。 記事は、Docker Advent Calendar 2018 - Qiitaの20日目です。 はじめに Elastic Stackを使うと、簡単にDockerコンテナの監視ダッシュボードが作成できるので、今回はその紹介をしたいと思います。 きっかけとしては、「開発環境で立ち上げている複数コンテナの問題調査を楽にしたい」というのがあります。最近、開発環境に複数のコンテナを立ち上げて開発メンバーに提供していますが、開発メンバーから「重たいので環境を確認してほしい」といった声が上がってきます。その際、どのサーバのどのコンテナに問題が発生しているのか確認したいですが、その都度サーバに入って、docker statsなどのコマンドで確認するのはやや面倒です。 そこで、コンテナの監視ダッシュボードを作って、

    Elastic Stackで簡単!Dockerコンテナ監視ダッシュボード作成 - Taste of Tech Topics
  • O'Reilly Japan - 入門 監視

    あなたのシステムはきちんと動いていると言えますか? 書は、システムのどの部分をどのように監視すべきか、また監視をどのように改善していくべきかについて解説する書籍です。 前半で監視のベストプラクティス、デザインパターン/アンチパターンを示して、監視の基原則を詳しく説明し、後半でフロントエンド、アプリケーション、サーバ、ネットワーク、セキュリティの各テーマで強力な監視の基盤を設計して実装するための方法を示します。 監視対象が変化し、システムアーキテクチャが進化する中で、従来から変わらない監視の基を示しながら、時代に合った監視の実践を解説する書は、監視についての理解を深めたいエンジニア必携の一冊です。日語版では、松木雅幸(@songmu)氏による監視SaaSの導入や活用方法を付録として収録しています。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載して

    O'Reilly Japan - 入門 監視
  • クラウド時代のサーバー監視における、良いメトリックの4要素 - Part1 - ログミーTech

    2018年9月22日、Japan Azure User Groupが主催するイベント「Japan Azure User Group 8周年イベント」が開催されました。JAZUG設立8周年を記念したイベント。Microsoft Azureを用いてサービス開発を行うエンジニアたちが一堂に会し、自身の経験と知見を元に新たな活用法などを語ります。プレゼンテーション「クラウド時代のモニタリング」に登場したのは、DatadogのMasahiro Hattori氏。講演資料はこちら クラウド時代のモニタリング Masahiro Hattori 氏:DatadogもAzureの連携機能とかにかなり力を入れてやっているんですが、その前に、とくに最近クラウドだけではなくて、コンテナという話が進んできて、アーキテクチャの大きな変化が進んでいる状況です。日々お客さまと接していて、みなさまに共有できるよう

    クラウド時代のサーバー監視における、良いメトリックの4要素 - Part1 - ログミーTech
  • エンジニア組織としての監視文化の作り方 | Nagisaのすゝめ

    エンジニア組織としての監視文化の作り方 Nagisa インフラエンジニアの榎戸です。 今回は僕が入社してから一年が経ったので、 僕が感じた事とやってきたことを監視に絞って書きたいと思います。 ※また今回は技術的な内容についてはあまり触れておりませんのでご了承ください。 入社時の状況 今ではかなり改善できたので笑い話となりますが 当時(昨年9月)はなかなか言葉には出しづらい状態でした。 当時の状況 監視はCloudWatchに数個 Nagiosとmuninが監視の役目を果たさず稼働している 監視の重要性の認識不足 障害が起きてから数時間後に気付く 障害対応をすると感謝されながらランチに連れて行ってもらえる こんな状態でした。 インフラエンジニアとして入社したのに 障害対応をするとランチに連れて行ってもらえる という体験には驚きと動揺が隠せませんでした。 今まで当たり前だった障害対応ですが お

    エンジニア組織としての監視文化の作り方 | Nagisaのすゝめ
  • ブラウザのネットワークエラーをレポートさせるNetwork Error Loggingが来た - ASnoKaze blog

    20180727追記 CORS対応が必要になりました asnokaze.hatenablog.com 20180703追記 ドキュメントはhttps://w3c.github.io/network-error-logging/ にが移されました 20180608追記 仕様上は、jsonの各値はハイフンではなく、アンダースコアを使用するようになります report-to => report_to max-age => max_age ... etc https://github.com/WICG/network-error-logging/commit/86c4d1c0fa4c5d5ca1d8bdcd9fa931e7e4ab65c2 こんな感じ nel: {"report_to": "network-errors", "max_age": 2592000, "include_subdomai

    ブラウザのネットワークエラーをレポートさせるNetwork Error Loggingが来た - ASnoKaze blog
  • PrometheusをDockerでさくっと動かしてコンテナで稼働するサービスの稼働監視 - Qiita

    global: scrape_interval: 15s scrape_configs: - job_name: 'node' static_configs: - targets: - '172.19.0.8:9100' 必要最小限の設定です。 上記は172.19.0.8の9100ポートで稼働するexporterから15秒間隔でデータをポーリングして収集する設定です。 job_nameは任意の文字列で指定可能で、重要なのはtargetsの設定箇所です。Prometheusサーバから接続する先のexporterの稼働IP:ポート情報が正しくないと監視できないので注意。 job_nameは後述のPromQLのフィルタリング条件として活用できる1つのラベル情報の扱いとなります。 Prometheus Serverを起動 Prometheusの公式のDockerイメージを使ってPrometheus

    PrometheusをDockerでさくっと動かしてコンテナで稼働するサービスの稼働監視 - Qiita
  • 25K request/secをさばいた「LINEのお年玉」のアーキテクチャの裏側 - LINE ENGINEERING

    みなさんこんにちは、LINEのサーバーサイドエンジニアの長谷部です。普段は、最近でいうとLINE Login や LINE Customer Connect などの開発を担当しています。 2018年の年始に LINEのお年玉 というイベントを実施し、その開発を担当しました。今回の記事では、LINEのお年玉のアーキテクチャの紹介や、当日実際に発生した問題(サービス過負荷起因のkafka consumer遅延)などの振り返りについて書こうと思います。 LINEのお年玉とは お年玉イベント期間中に、お年玉とLINEスタンプをセットで「お年玉つきスタンプ」として販売しました。対象スタンプを購入したユーザーさんは、スタンプ購入数 x 10個 のお年玉が付与されます。 こういったメッセージが受信されます ユーザーは自分がもっているお年玉を友だちに直接送ったりグループに送信することができ、お年玉を受け取

    25K request/secをさばいた「LINEのお年玉」のアーキテクチャの裏側 - LINE ENGINEERING
  • OSS運用監視ソフト 注目の10製品徹底比較 2016年版

    OSS運用監視ソフト 注目の10製品徹底比較 2016年版:実際に検証済み!OSS徹底比較(1)運用監視編(1/8 ページ) 運用監視をはじめ、多くの企業が取り入れているOSS(オープンソースソフトウェア)。目的に応じて最適なものを選択し、うまく使いこなせば強力な武器となるが、それができなければかえって手間や混乱の原因にもなりかねない。連載では注目のOSSをピックアップして実際に検証し、基的な優位性、劣位性を明確化した。ぜひOSSを選ぶ際の参考にしてほしい。 2014年9月、「徹底比較! 運用監視を自動化するオープンソースソフトウェア10製品の特徴、メリット・デメリットをひとまとめ」を公開してから1年半が経過している。その間にもシステムの利用規模は拡大を続けており、それとともに肥大化する運用業務の効率化は急務となっている。 「OpenStack」や「Docker」などIaaS/PaaS

    OSS運用監視ソフト 注目の10製品徹底比較 2016年版
  • 1