タグ

監視に関するji_kuのブックマーク (32)

  • 次世代監視の大本命! Prometheus を実運用してみた - Qiita

    こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと

    次世代監視の大本命! Prometheus を実運用してみた - Qiita
  • 「障害発生時に即座に収集したいサーバの状態・14項目」を実際に収集してみた - えいのうにっき

    僕はインフラエンジニアではないし、そうだったこともないのだけど、いま「インフラエンジニアの教科書2」というを読んでいる。 インフラエンジニアの教科書2 スキルアップに効く技術と知識 作者: 佐野裕出版社/メーカー: シーアンドアール研究所発売日: 2016/08/26メディア: Kindle版この商品を含むブログを見る Twitter かなにかでこのの存在を知り、とりあえず買ってみたものの、しばらくの間積読状態になってしまっていた。...のだけど、最近になってようやくちまちまと読んでいる。関係ないけど、kindleで読めるのはほんとに便利だ。 このの7章「障害対策と障害対応」で、『以下のような項目についてはサーバ障害時に即座に(20秒程度で!)収集できるべき』、とされていた。 メモリの搭載量と使用量 パーティションごとのディスクの使用率と空き容量 CPUの種類とコア数 ディスクのRA

    「障害発生時に即座に収集したいサーバの状態・14項目」を実際に収集してみた - えいのうにっき
  • 「私ゼロから監視設計できます」と言える人、いますか? 運用監視の自動化を考える

    運用監視の自動化は、複雑化するアプリケーションやサービスに対して効率的かつ確実な運用監視を実現する上で、またコスト削減の意味でも重要な要素になってきています。運用監視の自動化は、どのように考えて実現していけばいいのでしょうか。 7月24日に産業技術大学院大学で行われたイベント「July Tech Festa 2016」のセッション「運用自動化のための Re:ゼロから始める監視設計」は、そのための知見を得る上で大変参考になるものでした。この記事では、そのダイジェストを紹介します。 運用自動化のための Re:ゼロから始める監視設計 前佛雅人氏。 今日の私の話は、業界経験が豊富な方には当たり前すぎる内容かも知れませんが、自分だったら20年前にこれを知りたかったな、ということをまとめてみたつもりです。 私はもともとデータセンターの運用をずっとやっていました。 最近ではテクニカルエバンジェリストなど

    「私ゼロから監視設計できます」と言える人、いますか? 運用監視の自動化を考える
    ji_ku
    ji_ku 2016/10/31
  • ログ環境とDevOps ~一休.comでの事例~

    Retty Tech Cafe#7 インフラ/DevOps

    ログ環境とDevOps ~一休.comでの事例~
    ji_ku
    ji_ku 2016/10/23
  • 社内勉強会で「ワクワクする!システム監視入門」という発表をした - kakakakakku blog

    社内勉強会で「ワクワクする!システム監視入門」という発表をした. 今年の3月頃から DevOps の推進をメインで担当していて,技術的負債の解消,運用改善,外部サービスの導入など,様々な施策を進めている中で,監視の強化も頑張っている.個人的には相当良くなったなー!と思っているんだけど,先日の Infrastructure as Code 勉強会で @songmu さんの話を聞いていたら「監視に対する敷居を下げるべき」という話があって,非常に刺さった.基的に每日メトリクスを追っているのは僕で,もしかしたら敷居が高いのかもしれないなと感じた.もっとメンバーにもメトリクスを見てもらいたいし,アプリケーション開発に活用してもらいたい!というモチベーションが生まれて今回の発表に繋がった. kakakakakku.hatenablog.com 発表資料 (公開するために一部画像を加工してる) 負荷低

    社内勉強会で「ワクワクする!システム監視入門」という発表をした - kakakakakku blog
    ji_ku
    ji_ku 2016/07/29
  • Re: ゼロから始める監視設計

    世間では、情報システムの運用・監視の「自動化」というキーワードがもてはやされがちで、各種のツール・プロダクト等が出てくる昨今です。しかし、「自動化」の実態は深い霧のベールに包まれていると感じていませんか。今回は、以下の現場視点でこのベールを脱がしてみたいと思います。 July Tech Festa 2016 発表資料 #jtf2016 平成28年7月24日(日)Read less

    Re: ゼロから始める監視設計
    ji_ku
    ji_ku 2016/07/26
  • あなたはどれだけ知ってる?〜監視&モニタリングツール19選〜 - LIVESENSE ENGINEER BLOG

    創造開発部インフラグループです。(中の人:水野、中西) 今回の記事は、前回のログ収集基盤ツールまとめのサーバモニタリング版となります。 made.livesense.co.jp リブセンスでは過去 Nagios/Munin で行っており、現在では mackerel を利用していますが、この界隈も変化が激しく多種多様なツールが登場しているため良いところどりをして運用の向上になればと思っています。 それでは早速まとめです。 注: 有名な mackerel/Datadog については省略させていただいています。我々が知らないツールのまとめとなりますことをご了承ください。 Librato www.librato.com 有料SaaS(FreePlan 無し、30日間のトライアル有り) システムリソース等を収集/可視化するサーバモニタリングツール。ホスト単位ではなく、メトリクス単位で管理/課金される

    あなたはどれだけ知ってる?〜監視&モニタリングツール19選〜 - LIVESENSE ENGINEER BLOG
    ji_ku
    ji_ku 2016/06/14
  • SNS + Lambda + Twilio で音声電話をかける v2 - Qiita

    アラート発生時に AWS Lambda を使って音声電話をかける では単に電話をかけるだけでしたが、 複数人に同時に電話をかけたい 1人だと、その人が電話に出なかったら終了なので 夜から朝方までの時間帯で電話を鳴らしたい 日中はアラートメールで十分 という変更をしたくなってきたので、いろいろ改変。 npm パッケージを使うことになったので、JSベタ貼りではなくきちんとzipでアップロードすることになります。 となると、いろいろ面倒になってくるので、gulp 対応、CoffeeScript 化もついでに行います。 コード package.json 使う npm パッケージは以下の通り。 moment-timezone: 有名な日時ライブラリの timezone 対応版。UTC-JST 変換、時刻判定に。 q: 有名な Deferred-Promise ライブラリ。 twilio: せっかく

    SNS + Lambda + Twilio で音声電話をかける v2 - Qiita
  • アラート発生時に AWS Lambda を使って音声電話をかける - Qiita

    続編:SNS + Lambda + Twilio で音声電話をかける v2 CloudWatch や独自ツールから Amazon SNS に Notification を飛ばすと、subscribe しているメールアドレスにメール通知が行えます。 サービスの監視を行ってアラートをメールで受信しているケースが多いと思いますが、深夜等でメールを受信しても気づかないケースがあり、障害検知が遅れてしまう、という問題があります。 これを回避するために、電話をかけることにしてみました。 電話をかけるのに使うサービスは Twilio。日ではKDDIが業務提携してサービスを提供しています。 Amazon SNS から AWS Lambda への通知が可能になっていますので、Lambda を使って実装します。 Lambda は現時点で東京リージョンでは使えないため、N.Virginia を使います。 7/

    アラート発生時に AWS Lambda を使って音声電話をかける - Qiita
  • 理論を知って改めて監視と向き合おう /「ITインフラ監視[実践]入門」を読んだ - kakakakakku blog

    先週発売された「ITインフラ監視[実践]入門」を読んだ.ちょうど業務で監視改善を検討しているところだったので,個人的に良いタイミングで読むことができた.あとお世話になってる @ariarijp が書のレビューに参加されたってことで,すぐ読んでみようと思った. 監視 is 何 「監視」に対する理論や定石がまとまっていて,今までに無かった視点のだなと感じた.一部 Mackerel の例も出てくるけど,あくまで実例の紹介という感じで,導入しているインフラ技術や監視サービスに依存せず読めた.「サービスの安定稼働」って言うのは簡単だけど,そのためには多岐にわたる戦略が必要で,来ならここまで腰を入れて監視に向き合うべきだよなーと改めて感じたりもした. 閾値 (Threshold) 「閾値」を「しきいち」と読んでいるし,今までの現場でもそう読んでいたけど,書では「いきち」と読みが振られていた.

    理論を知って改めて監視と向き合おう /「ITインフラ監視[実践]入門」を読んだ - kakakakakku blog
  • Amazon CAPTCHA

    Amazon CAPTCHA
  • Datadogの本当の魅力とは - Qiita

    AWS re:Invent 2014でDatadogの展示スタッフとしてブースに立ち、NYCオフィスで開発を担当しているエンジニアさん達のデモ内容を3日間見ていると、自分が持っていたDatadogの利用イメージが幼稚であったことをつくづく実感しました。この感覚が薄れる前に、学んだことを書き残しておくことにします。 Datadogは、OPSの視界を確保する! 一般的にDatadogは、綺麗なグラフが書けるモニタリングSaaSだと思っている人が多いと思います。しかし、実際はそれだけではないです。(実際にグラフ描写だけで考えると圧倒的に綺麗なのは間違いないけど…。)むしろDatadogというサービスは、いま自分たちが運用しているシステム全体の状況をtagを使って多次元に解析できるフレームワークと考えたほうが良いと思います。したがって、Datadogのサービスから価値を引き出すには、tagを使いこ

    Datadogの本当の魅力とは - Qiita
  • Mackerelでまきとるシステム運用管理の旨み #mackerelio - アニメイトラボ開発者ブログ

    Mackerelを使い始めました CTO 小芝です。この記事はanimateLAB Advent Calendar 2015 2日目の記事です。 先日、"エンジニアをワクワクさせる「直感的サーバ監視サービス」 "Mackerelを数十台のホストに一斉導入しました。 既存サービスで外部に任せていたシステム運用をインハウス化し、運用クオリティを自分たちで高めていくための取り組みの一つです。 Mackerelとは 株式会社はてなが開発・運営しているサーバ監視サービスです。 mackerel.io このような特徴がWebサイトに書かれています。 *1 経緯 アニメイトラボでは今年の夏よりエンジニアを積極採用し、当初1名だったのですが現在では総勢10人でチームを組んで新サービスの開発に邁進しています。 それと並行して、既存サービスでは外部委託されていたシステム運用をインハウス化し、ビジネス面、開発面

    Mackerelでまきとるシステム運用管理の旨み #mackerelio - アニメイトラボ開発者ブログ
  • ウチの監視システムの変遷について書く | Ore no homepage

    今、リアルタイムでは休暇中でフランクフルト経由ベルリン行きの飛行機の中にいる。暇すぎる。うちの会社、ってかトレタの監視系の変遷について書く。でも絵を描く気力はないので文字のみ。 今の状況です ルフトハンザは日線は軽の時間に ONIGIRI が出てくるので結構好きな航空会社です。休暇中なのにラップトップ持ってくのはプロ社畜の証。まあ今会社で裏側見てるのが俺しかいないので、エエ…。しかし世の中ホント便利に便利になってる。空の上でもインターネットができる。言い方を変えると空の上でもアラートが届くっていう…。飛行機の中は暇すぎるけどさすがに仕事はしたくないね。というかこの旅行中は仕事を忘れたい。 2014/10以前 俺が入社する前。 コア機能:Engineyard(OS: gentoo)。 プロセス異常監視、閾値監視など:monit エラートラッキング、レスポンスタイム、SQL:NewReli

    ウチの監視システムの変遷について書く | Ore no homepage
    ji_ku
    ji_ku 2015/10/19
  • WEB系各社で使われている監視ツールまとめ - mikedaの日記

    次世代 Web カンファレンスで監視について話すことになったので、ネタとしてWEB系各社で使っている監視ツールを調査中。 うちはこれ使ってるよ!!!ってのがあったら@mikedaにメンションください! Cookpad Zabbix 昔はNagios+muninだけど台数増えて性能的に破綻した ビューはそのままじゃ辛いのでmunin風に表示するのを自作 StatusCake DataDog。サービス系、サーバに紐付かない系の監視に。DashBoard便利 waker。通知用。PagerDuty高い、と言ってryot_a_raiが秒で作ったらしい Kibana imon。独自のリアルタイムなサービス稼働状況表示ツール NewRelic 試し中なもの Real-User Monitoring : JSでbeacon飛ばしてfluentd -> BigQuery。Google SpreadShee

    WEB系各社で使われている監視ツールまとめ - mikedaの日記
    ji_ku
    ji_ku 2015/10/19
  • 第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介

    7/27 第8回OSS運用管理勉強会の資料です。 Zabbixの基の話〜8月リリース予定のZabbix3.0の機能紹介も含みます。

    第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
  • http://blog.inouetakuya.info/entry/20121216/1355656214

    http://blog.inouetakuya.info/entry/20121216/1355656214
    ji_ku
    ji_ku 2015/06/12
  • クックパッドにおけるサーバ監視と運用の工夫 - クックパッド開発者ブログ

    こんにちは。インフラストラクチャー部の加藤(@EugeneK)です。 今回はWebサービスを運用する上で欠かせない、モニタリングをクックパッドでどうしているかという話をします。 死活監視と性能監視 Webサービスを運用している以上、そのサービスを稼働しているサーバがあり、サーバには故障やトラブルが発生します。 また、どれくらいのパフォーマンスが出ているか、リソースをどのくらい消費しているかなどのトレンドを把握することは、成長するサービスを支えていく上で欠かせません。 故障やトラブルにいち早く気づくための仕組みを死活監視と言います。 また、サーバリソースの時系列での推移を知るために、グラフとしてトレンドを可視化する仕組みを性能監視と言います。 ポーリング監視の限界とZabbixのアクティブ監視 クックパッドでは死活監視にNagios、性能監視にMuninを使用してきましたが、サーバ台数の増加

    クックパッドにおけるサーバ監視と運用の工夫 - クックパッド開発者ブログ
    ji_ku
    ji_ku 2015/05/07
  • スタートアップ向け監視設計入門::Innova EngineerBlog

    Image from Datadog はじめに こんにちは。エンジニアのみかみです。DevOpsを推進するための、ビルドツール、CI、監視系の設計や管理ツールの作成を担当しています。インフラエンジニアっぽいですが、実際はチーム内の困ったを拾うキャッチャーで、よろず相談屋をやっています。 さて、今回は監視についてのお話です。 最近、安価で柔軟に使えるクラウドサービスが提供され、新規サービスの開発が容易になりました。 しかし、サービスをリリースしたものの、ある程度サービスが認知されてくると突然システムが故障したり、予期せぬ不具合が突然発生し困ったことはないでしょうか? サービスの稼働率を100%保証することは技術的に難しく、サーバー稼働率99.9%を保証しているサービスが多いですが、この数字でも年に9時間は停止する計算になります。100%の動作保証が難しいのならば、何時停止したとしても、すぐに

    スタートアップ向け監視設計入門::Innova EngineerBlog
    ji_ku
    ji_ku 2015/05/07
  • 監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note

    Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。 モニタリング領域 サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。 後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワーク サーバを内部ネットワークから監視するために利用 サーバのプロセス監視、サーバ間の疎通監視、エラ