Tech x Marketing meetup #5 サイトリライアビリティエンジニアリング https://techxmarketing.connpass.com/event/189979/
![その広告配信システムは正しく動いているのか? #TechMar](https://cdn-ak-scissors.b.st-hatena.com/image/square/1c9fbf1b128f0ce6627cef87d00daade6ced0fb4/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F204fc29a59334d4fbea4c67b4444cc4d%2Fslide_0.jpg%3F16414084)
Mackerelにおける Cloud Nativeへの取り組みと チームへ与えた変化 / CloudNative Days Tokyo 2020
こんにちは。ABEJAのインフラ管理してる村主 @rwle1221 です。 本ブログは Datadog Advent Calendar 2019 の8日目です。 今日は ABEJA Platform というプロダクトで、なぜ Prometheus から Datadog に変えたのか。というお話したいと思います。 一人の方でも採用基準の参考になればと思います。 第一フェーズ:実は元々Datadogを使っていた 実は Prometheus の前は Datadog を使っていました。 なぜ Datadog を使っていたかというと、Za○bix や Na○ios などは古い思想なので使う気になれなかったという単純な理由です。 ただ、 Datadog は $18/host という値段で 当初は数十台だったので数万円ほど発生していました。やはり少し高いなという印象です。 第二フェーズ:Promethe
この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019」の7日目です。 qiita.com 個人の趣味でやっていたやらかしなので、あまり大した内容ではありませんがご容赦ください。。 背景 趣味で運用していたVPSのサーバをGKEに移そうとしていました。 段階的に移行を進めていたため問題が発生した時点ではapp群はVPSで動いており、Cloud DNSのみGCPに移行済みな状態でした。 なぜ起こったのか Firebaseのプロジェクトを消してしまい、それに伴ってGCP側のプロジェクトも消えてしまいました。 背景に記載した通り、段階的に移行を進めていたことと以下のような理由が重なり消した直後は気づいていませんでした。 HTTPアクセスによる外形監視を入れていなかったため、VPS上のサービスが接続不可になっていることに気づかなかった VPS上のプロセス監視(macke
ITシステムの運用監視において、通常とは異なる状態、例えば急にトラフィックが跳ね上がる、動作速度が遅くなる、プロセッサの使用率が上がる、ネットワークのレイテンシが大きくなる、などを検知し、警告を発することはもっとも基本的かつ重要な機能です。 しかし、通常の状態にはある程度の幅があります。一体どの程度の範囲を超えたら異常であると判断するのか、閾値の設定は容易ではありません。 閾値を低くすれば、ひんぱんに異常と判断されて警報がいつのまにか軽視されてしまう心配があります。逆に閾値を高くすれば、小さな異常が見過ごされてしまう恐れがあるため、適切な設定には試行錯誤が必要です。 しかも昼と夜、平日と休日では適切な閾値は異なるでしょうし、キャンペーン期間やテレビコマーシャルの投入など特定の期間も閾値は変化するなど、閾値の設定は動的に行う必要もあります。 こうした難しい異常値の検出を機械学習により自動的に
前のエントリの続きです。思ってた以上に反響があったので、主語を控えることも検討しましたがこのまま行きます。前回同様、すでにMicroservicesでバリバリやっている人は読む必要ないと思います。 前回の最後にMicroservices時代になると、開発者がこれまで以上に監視に取り組んでいく必要があると言う話を書きました。多少重複するところもありますが、その辺りから話を始めます。 モノリシック世界観での監視 アプリケーション監視の浸透 Microservices時代の監視設計 開発者自身が監視する どう監視するか メトリクス設計 The Four Golden Signals USEメソッド REDメソッド USEとREDの補完関係 The Four Golden Signalsの素晴らしさ 例: ある認証コンポーネントの監視設計 まとめ モノリシック世界観での監視 Webサービスの構成が
こんにちは、エンジニアリンググループ SREチームの高橋(@tshohe1)です。 「入門 監視」という本が各所で話題になっていますが、エムスリーのエンジニアリンググループでも予約購入していました! www.oreilly.co.jp 監視というSREと非常に親和性の高いテーマの本だったこともあり、多くのSREメンバがこの本に目を通していたようです。 そこでぜひチーム内で感想を共有しようということになり、先日感想共有会が実施されました。 本記事ではそのときに挙がった感想を一部抜粋して公開したいと思います。 モニターリザード 各章の感想 「1章 監視のアンチパターン」について 「第2章 監視のデザインパターン」について 「3章 アラート、オンコール、インシデント管理」について 「5章 ビジネスを監視する」について 「6章 フロントエンド監視」について 「7章 アプリケーション監視」について
「サービスメッシュ」「Istio」って何? どう使える? どう役立つ?:寺田佳央氏が分かりやすく説明 マイクロサービスに関わる人々の間で、「サービスメッシュ」「Istio」への注目が高まっている。これについて、Javaコミュニティーで広く知られる日本マイクロソフトのテクニカルエバンジェリスト、寺田佳央氏がデモを交え、分かりやすく説明した。寺田氏の説明を要約してお届けする。 マイクロサービスに関わる人々の間で、Istioへの注目が高まっている。これはGoogle、IBM、Lyftが開発し、2017年5月にオープンソース化したソフトウェア。「サービスメッシュ」と呼ばれる機能を果たす。サービスメッシュでは、マイクロサービス間の通信を統一的な仕組みで制御。これにより、きめ細かなセキュリティの確保、流量制御、フェイルオーバー、ブルー/グリーンデプロイメント、カナリアデプロイメントなどを容易にする。
運用監視サービスのDatadogが、フロントエンド自動テスト「Madumbo」を買収。サーバからフロントエンドまでをモニタリングするフルスタックな監視サービスに システムの運用監視をクラウドサービスとして提供しているDatadogは、フロントエンドの自動テストツールを提供している「Madumbo」の買収を発表しました。 Datadogは一般的な運用監視ツールと同様にサーバの稼働状況をモニタリングし異常を発見することに加え、ダッシュボード上でモニタリング状況を見ながら関係者とチャット画面でコミュニケーションできる機能を提供しているのが特徴の1つ。 ApacheやNginx、MySQLやPostgreSQLなど多くのミドルウェア、仮想マシンやクラウドのインスタンス、Dockerコンテナなどの状況も監視可能。 さらにPython、Go、Rubyなどで記述されたアプリケーションやフレームワークを検
エンジニア組織としての監視文化の作り方 Nagisa インフラエンジニアの榎戸です。 今回は僕が入社してから一年が経ったので、 僕が感じた事とやってきたことを監視に絞って書きたいと思います。 ※また今回は技術的な内容についてはあまり触れておりませんのでご了承ください。 入社時の状況 今ではかなり改善できたので笑い話となりますが 当時(昨年9月)はなかなか言葉には出しづらい状態でした。 当時の状況 監視はCloudWatchに数個 Nagiosとmuninが監視の役目を果たさず稼働している 監視の重要性の認識不足 障害が起きてから数時間後に気付く 障害対応をすると感謝されながらランチに連れて行ってもらえる こんな状態でした。 インフラエンジニアとして入社したのに 障害対応をするとランチに連れて行ってもらえる という体験には驚きと動揺が隠せませんでした。 今まで当たり前だった障害対応ですが お
この記事は、SaaSのサーバ監視サービスMackerelを起源を遡り、そこから現在の姿に至った経緯をはてな社内のエンジニアに共有するためのものです。 なお、ここに書かれていることは、Mackerel開発チームの公式見解ではありません。 概要 Mackerelは、もともとは2007年ごろに開発されたはてなの社内のサーバ管理ツールであり、動的なインフラストラクチャに対応するために、現在でいうところのInfrastructure As Codeを目指したものです。 そこから2013年にSaaSのサービスとして開発され、コードベースとアーキテクチャは全く新しくなり、監視機能を備え、サーバ「監視」サービスと呼ばれるようになりました。 しかし、はてな社内では、プログラマブルなAPIを備えたサーバ「管理」サービスとして、Mackerelを中心にしたインフラストラクチャを構築しています。 Mackerel
Geeks Who DrinkとPostgreSQL Conference Japan 2017での資料です。 nulab.connpass.com PostgreSQL Conference Japan 2017 (2017-11-03) | 日本PostgreSQLユーザ会 詳しく知りたい人は下記の本がおすすめです。 ただし注意点は9.3相当なのでプロセスの仕組みがちょっと違います。 待望の新刊出ました!10系ベースなのでぜひ読んでみてください。 ※2018/10/07 追記 読み応えのある内容になったかなと思います。レベル感で言えばOSS DB Goldの試験出る範囲です。特に内部構造は覚えて置いて損は無いでしょう。 speakerdeck.com 内部構造の中で取り扱っていないところにAUTOVACUUM、TOASTとレプリケーションがあります。AUTOVACUUMはPostgre
こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより本来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと
ずっと読もうと思っていたけど読めていなかった「ウェブオペレーション」を読んだ.読んでたら週末終わってしまった! 2011年に発行された本だし結構古くなってるのかなとも思ったけど,全然そんなことなく,今読んでも目から鱗な知見ばっかりだった.確かにウェブオペレーションを取り巻く環境は広くなってたり,デファクトスタンダードな技術も推移して便利になってきているけど,マインドの部分は不変なものだなと感じた. ウェブオペレーション ―サイト運用管理の実践テクニック (THEORY/IN/PRACTICE) 作者: John Allspaw,Jesse Robbins,角征典出版社/メーカー: オライリージャパン発売日: 2011/05/14メディア: 大型本購入: 10人 クリック: 923回この商品を含むブログ (50件) を見る ビジネスメトリクス メトリクスって言うと Zabbix や Mack
Eliminate duplicate support tickets & clunky email lists Halt the flood of support requests during an incident with proactive customer communication. Manage subscribers directly in Statuspage and send consistent messages through the channels of your choice (email, text message, in-app message, etc.) Display the status of each part of your service Control which components of your service you show o
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く