世間では、情報システムの運用・監視の「自動化」というキーワードがもてはやされがちで、各種のツール・プロダクト等が出てくる昨今です。しかし、「自動化」の実態は深い霧のベールに包まれていると感じていませんか。今回は、以下の現場視点でこのベールを脱がしてみたいと思います。 July Tech Festa 2016 発表資料 #jtf2016 平成28年7月24日(日)
世間では、情報システムの運用・監視の「自動化」というキーワードがもてはやされがちで、各種のツール・プロダクト等が出てくる昨今です。しかし、「自動化」の実態は深い霧のベールに包まれていると感じていませんか。今回は、以下の現場視点でこのベールを脱がしてみたいと思います。 July Tech Festa 2016 発表資料 #jtf2016 平成28年7月24日(日)
次世代 Web カンファレンスで監視について話すことになったので、ネタとしてWEB系各社で使っている監視ツールを調査中。 うちはこれ使ってるよ!!!ってのがあったら@mikedaにメンションください! Cookpad Zabbix 昔はNagios+muninだけど台数増えて性能的に破綻した ビューはそのままじゃ辛いのでmunin風に表示するのを自作 StatusCake DataDog。サービス系、サーバに紐付かない系の監視に。DashBoard便利 waker。通知用。PagerDuty高い、と言ってryot_a_raiが秒で作ったらしい Kibana imon。独自のリアルタイムなサービス稼働状況表示ツール NewRelic 試し中なもの Real-User Monitoring : JSでbeacon飛ばしてfluentd -> BigQuery。Google SpreadShee
こんにちは。インフラストラクチャー部の加藤(@EugeneK)です。 今回はWebサービスを運用する上で欠かせない、モニタリングをクックパッドでどうしているかという話をします。 死活監視と性能監視 Webサービスを運用している以上、そのサービスを稼働しているサーバがあり、サーバには故障やトラブルが発生します。 また、どれくらいのパフォーマンスが出ているか、リソースをどのくらい消費しているかなどのトレンドを把握することは、成長するサービスを支えていく上で欠かせません。 故障やトラブルにいち早く気づくための仕組みを死活監視と言います。 また、サーバリソースの時系列での推移を知るために、グラフとしてトレンドを可視化する仕組みを性能監視と言います。 ポーリング監視の限界とZabbixのアクティブ監視 クックパッドでは死活監視にNagios、性能監視にMuninを使用してきましたが、サーバ台数の増加
○:標準で使えます ×:標準で使えません 補足 1.リソース監視の監視項目 CloudWatchはデフォルトでメモリー使用率やディスク使用量、ロードアベレージがないので必要であればカスタムメトリクスとして追加する必要があります。監視項目は以下のページをご覧ください。 [CloudWatch]グラフの確認方法と確認できるグラフ一覧(EC2/ELB/RDS) Zabbixエージェント - Zabbixオフィシャル日本語サイト 2.Zabbixからフルマネージドサービスを監視 ZabbixではRDSやELBのリソースを監視する機能はありません。Zabbixでフルマネージドサービスを監視したい場合はCloudWatchから値を取得するスクリプトを実装する必要があります。 ZabbixでAWS/CloudWatchの値を取得してみた 3.カスタムメトリクスを使えば可能 カスタムメトリクスの追加方法は
普段はサーバのメトリクス可視化のためにcloudforecastを使っていますが、某案件用に数秒単位で数十台のサーバのメトリクスを表示したいので、記事タイトルのような構成を作ってみた。 dstatでとった各種値の他に、nginxとmemcachedの情報も合わせて表示させています。 セットアップ もろもろのセットアップのメモ 監視サーバ まず、監視サーバにElasticsearchとkibanaをいれる。環境はCentOS6 $ sudo yum install java-1.7.0-openjdk $ sudo rpm -Uvh https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.x.x.noarch.rpm Elasticsearchは特に設定なく起動 $ sudo service
利用している無線LANを不正に使われないように、接続してきたPCを検知してポップアップ・音声・メールで通知し、接続の切断ができるソフトウェアが「Who Is On My Wifi」です。Windows上で起動可能となっています。ダウンロード・インストール・操作方法については以下から。 Who Is On My WiFi | Wiress Network Security Software http://www.whoisonmywifi.com/ 今回は試用版を使うので、上記サイトの「Download FREE TRIAL」をクリック。 ダウンロードしたインストーラーを起動。 「Next」をクリック 上にチェックを入れて「Next」をクリック 「Next」をクリック 「Next」をクリック 「Next」をクリック 「Install」をクリック 「Finish」をクリック 操作画面が表示され
サーバーのリソースを見るにはグラフ化は重要ですが、推移ではなくリアルタイムな状況、例えば秒単位のスパイキーな負荷を見るには、サーバー上でvmstatやiostatなどの*statファミリーを叩く必要があります。 さて、vmstatはメモリの状況やブロック数単位のI/O状況は見られますが、バイト単位のI/O状況やネットワークの送信、受信バイト数を見ることはできません。 # vmstat 1 procs -----------memory---------- ---swap--- -----io----- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 3 1 0 4724956 355452 726532 0 0 54 484 3 3 1 0 99 0 0 2 0 0 47
そう簡単に行くことができないぐらい遠く離れた場所にあるサーバを運用していると、「だめだ!もうコンセントを抜いて強制的に電源断して再起動するしかない!」というケースが出てきます。そういう場合になんとかしてリブートする方法はいろいろありますが、中でも強力なのがこの「iBoot」シリーズです。 コンセント自体がPingを送信してサーバやデバイスの死活監視をしてくれるので、いちいちこまめに監視できないようなケースでも割と乱暴ですが、ある程度放置しっぱなしで運用可能となっています。 製品カテゴリとしては「ネットワークパワースイッチ」「リモートパワースイッチ」と呼ばれるものです。製品の詳細などは以下から。 iBoot Remote Reboot via Web Browser http://dataprobe.com/iboot-remote-reboot.php このiBootシリーズの中でもトップ
こんにちは。グリーのmdoi(@m_doi)です。 今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。 何を使っているの? グリーでは、死活監視にNagiosを使用していました。監視システムの中では、かなり有名なソフトウェアですから、監視システムの構築に使用したことがある方も多いのではないでしょうか。プラグインも豊富に存在するので、様々な監視を行うことができます。死活監視は、このNagiosの機能をそのまま利用し、ログ監視は、Nagiosと独自に作成したエージェント及びログフィルタを連携させて行っていました。 全体のシステ
こんにちは。インフラチームの ebisawa です。 今回はグリーのインフラにおける各種機器の監視がどのように行われているのかご紹介させていただきたいと思います。一般にサーバの監視というと、システムダウンを検出するための死活監視を意味する場合と、ネットワークトラフィック等のモニタリングのことを意味する場合とがあります。今回の監視は特に後者についてのお話です。大規模なインフラの監視には、やはり特有の課題があります。 どんなツールを使っているのか グリーではサーバの各種リソース使用状況をモニタリングしてグラフ化するためのツールとして、Cacti を利用しています。Cacti は、大変有名なツールなので皆様ご存知かと思いますが、バックエンドの RRDtool で作成したグラフを閲覧するための使いやすいユーザーインターフェイスを備えています。 http://www.cacti.net/ ツールの使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く