Amazon CloudWatch 監視
運用監視に必要な知識はOS、コマンド、そしてプログラミング~ゼロからの運用監視設計(後編)。July Tech Festa 2016 運用監視の自動化は、複雑化するアプリケーションやサービスに対して効率的かつ確実な運用監視を実現する上で、またコスト削減の意味でも重要な要素になってきています。しかし運用監視の自動化は、どのように考えて実現していけばいいのでしょうか。 (本記事は「正しく運用されているかを評価するのが監視である~ゼロからの運用監視設計(前編)。July Tech Festa 2016」の続きです。) ゼロからの監視設計 ひとつはサービスレベルの定義、もうひとつは非機能要件としてのシステム監視ですね。こういうことは以外と職場でも学校でも教えてくれなかったことです。 なぜかというと、だいたい担当部署によってみているレイヤが違うわけです。物理層を見ているところ、ネットワーク層、あるい
※ ちゃんと調べていないので、あくまで主観です! 「Zabbix plugin for Grafana dashboard」のセットアップ 前提条件 今回は以下の環境でセットアップしました! Amazon Linux Zabbix 2.4(インストール、設定済み) Zabbix Serverと同居 Grafana 3.1.0(rpm) Zabbix plugin for Grafana 3.0.0-beta 手順 Grafana インストール Zabbix plugin for Grafana インストール Zabbixに監視用アカウント設定 Grafana WebUIから、Zabbix datastoreの設定 Grafana インストール Grafanaはyumを使ってインストールです! 実際はAnsibleでやったんだけど、なーんとなく手順 /etc/yum.repos.d/graf
NetflixのシニアパフォーマンスアーキテクトであるBrendan Gregg氏による、Linuxサーバにログインして60秒でまず調べることのまとめ。 パフォーマンス問題でLinuxサーバーにログインしたとして、最初の1分で何を調べますか? Netflixには、多数のEC2 Linuxからなるクラウドがあり、そのパフォーマンスを監視したり調査したりするための数々のパフォーマンス分析ツールがあります。その中には、クラウド全体にわたる監視を行うAtlasや、オンデマンドにインスタンスの分析を行うVectorがあります。これらのツールは多くの問題を解決する手助けをしてくれますが、各インスタンスにログインし、標準的なLinuxパフォーマンスツールを実行する必要がある場合もあります。 この記事では、すぐ使えるはずの標準的Linuxツールを使いコマンドラインにおいて、最適化されたパフォーマンス調査を
技術評論社様より、献本をいただきました。 斎藤 祐一郎 著の「ITインフラ監視実践入門」です。 ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus) 作者: 斎藤祐一郎出版社/メーカー: 技術評論社発売日: 2016/01/16メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る早速読了いたしましたので、主観的な感想を本エントリーに残したいと思います。 以下、興味のある人だけ続きを読んで下さい。 スポンサーリンク これまで、あるようで無かった監視の本 これまで、ZabbixやNagiosなどの統合監視の解説書や、サーバー運用に関する書籍は見掛けましたが、私の知る限りでは「ITインフラ監視」をテーマにした解説書は、見たことがありません。 何故、これまで監視の本が出なかったのでしょうか。 その監視ノウハウが社外に出ること
このたび、「ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)」という本を執筆・刊行する運びとなりました。 2016/01/16より発売です!Amazonなどのオンライン書店では先行予約も始まっております。 電子書籍版もあります。「Gihyo Digital Publishing」のサイト、またはKindleをどうぞ。 こんな人にオススメ! サーバの監視設定ってどうやればいいかわからない サーバの監視設定はやったけど監視の業務をどう回せばいいかわからない サーバの監視についてまとまった情報が欲しい 本書では、体系的な知識を持ってすれば、多くの方にもサーバの監視設定を行っていただくことができるよう、まとめています。 現在、Webサービスをはじめとしたサーバを用いたシステムを運用するにあたって、サーバの監視は外せない業務となっています。し
リソース監視の必要性 VPSやクラウドの流行で、安価にサーバーを持てる時代になりました。ところで皆さん、手持ちのサーバーの状態はきちんとモニタリングしていますか? もしもサーバーに障害が発生したら、ただちにサービスを復旧させなければなりません。そのためZabbixやNagios等を使い、Pingに応答するか? 80番ポートにコネクションを張れるか? と言うように、サーバーが生きているかどうかを常に監視していることでしょう。また、外部から特定のURLへの疎通を監視し、応答しなくなった際にアラートメールを送ってくれるようなサービスもあります。 しかし、それだけでは起こり得る障害を未然に防ぐことはできません。たとえばデータが溜まってきてHDDがあふれそうだったり、Webサービスへのアクセスが増えたことによってメモリが不足ぎみになっていたり、DBのスロークエリーが出ていたりといったサーバーのリソー
このサイトは、オープンソースの統合監視ツールである Pandora FMS の日本語コミュニティサイトです。ここでは、 日本における Pandora FMS の普及 Pandora FMS 開発に関して日本から本家へのフィードバックをしやすくする ことを目的として、Pandora FMS に関する各種情報提供および、情報共有の場を提供しています。 このサイトは、日本独自のサイトではありますが、ここでの成果のうち本家への取り込みが可能なものについては積極的に本家パッケージに反映させる活動をしていきます。 Pandora FMS とは Pandora FMS は、ネットワーク機器やサーバに対するオープンソースの統合監視ツールです。 SNMPを使った監視はもちろん、TCPポートへの接続や、Windows サーバに対する WMI を使った監視、エージェントソフトを利用した監視も可能です。監視ツール
今、リアルタイムでは休暇中でフランクフルト経由ベルリン行きの飛行機の中にいる。暇すぎる。うちの会社、ってかトレタの監視系の変遷について書く。でも絵を描く気力はないので文字のみ。 今の状況です ルフトハンザは日本線は軽食の時間に ONIGIRI が出てくるので結構好きな航空会社です。休暇中なのにラップトップ持ってくのはプロ社畜の証。まあ今会社で裏側見てるのが俺しかいないので、エエ…。しかし世の中ホント便利に便利になってる。空の上でもインターネットができる。言い方を変えると空の上でもアラートが届くっていう…。飛行機の中は暇すぎるけどさすがに仕事はしたくないね。というかこの旅行中は仕事を忘れたい。 2014/10以前 俺が入社する前。 コア機能:Engineyard(OS: gentoo)。 プロセス異常監視、閾値監視など:monit エラートラッキング、レスポンスタイム、SQL:NewReli
7/27 第8回OSS運用管理勉強会の資料です。 Zabbixの基本の話〜8月リリース予定のZabbix3.0の機能紹介も含みます。
初めての運用管理者が知っておきたい監視・ジョブ管理向けOSS構成例4つの比較まとめ:Zabbix+JobSchedulerで効果的な運用監視とジョブ管理(1/2 ページ) 「監視」と「ジョブ管理」はシステム運用の要といえるもの。オープンソース、商用ともに多様なツールが存在しますが、本連載ではオープンソースソフトウエア(以降、OSS)に焦点を当て、「Zabbix」と「JobScheduler」の活用法を詳しく解説します。監視やジョブ管理の機能を持つツールは種々存在しますが、その中でも特にオープンソースソフトウエア(以降、OSS)のZabbixとJobSchedulerを活用する方法について解説します。 前編となる本稿では、監視とジョブ管理の正しい在り方と、ZabbixやJobSchedulerを用いることによるメリット、TISが開発したOSSであるZabbixとJobScheduler連携ツ
TODO: 必要なら図を足す 他に書いた方が良いPros/Consのリクエストがあったら追記 内部のイベントストリームの扱い Pros: Inputがスケーラブルに実装しやすく,データストリームを正常時/エラー時で切り替えやすい Cons: エラーハンドリングがブロッキングモデルよりも複雑になりやすい 以下長々と理由書きます. Fluentdはイベントストリームを効率良く,またロバストに扱うことを目的に設計されています.そのため,独自の転送プロトコル(forwardプラグイン)を実装していますし,内部のイベントのハンドリングもそれに沿うようになっています.ただ,それによって相性の悪い操作とかもあります. Fluentdはバッファ機能を提供しており,これによって転送の効率化とエラー時のデータロスを防ぐ設計になっています.が,あまりにも書き込み先が遅いなどの問題があると,バッファの制限を超えて
前のブログの続きで、もにかじ7で話した小ネタその2。 実際にサービスでなんかやったというのじゃなく、こういうこと考えてるんだけどみんなどうしてます?って話です。 まずオンプレ時代はサーバのスペックダウンはけっこう大変だったし、頑張ってメモリやCPU引っこ抜いてもそんなに節約にならなかった。 ※CPUやメモリはサーバ価格の一部でしかないし、ラック費用(消費電力)もあるし。 でもクラウド前提だとスペックダウンはとても簡単で、スペック半分にすると価格も半分になる。 そうすると、 『イベントで一時的にc4.4xlarge(8万/月)にして、そのまま最大CPU使用率10%とかで数ヶ月放置されている』 みたいなのはビジネス的な損失という意味で明らかに障害で、監視すべきじゃないだろうか? みんななんかやってますか? というようなことを参加者に聞いてみました。 参加者の中では、AutoScalingしてい
プロセスアカウンティング用に広く利用できる物として "Process Accounting Utility" があります。環境によって、パッケージの名前が、 psacct もしくは acct になっているものです。 $ # インストール (ubuntu) $ apt-get install acct 用意されているコマンド lastcomm: 実行されたコマンドの表示 ac : ユーザの接続時間の表示 sa: 過去に実行されたコマンドの集計/フィルタ ※ 質問の要件を満たすために、一般ユーザーからはこれらのコマンドが実行できないようにしてください。 アカウンティングサービスの実行 $ # サービスの開始 $ /etc/init.d/acct start $ # サービスの停止 $ /etc/init.d/acct stop 実際は、accton コマンドによってプロセス監視が始められます。
We are constantly updating our collection of different sources. All content absolutely free!
サーバの構築は難しいが、それ以上に困難なのがそれを動かし続けること、そしてトラブルに迅速に対応することだ。サーバの動作状況を監視し、障害の予兆や発生をより早く検知できる体制を整えよう。(編集局) いまは正常に動作しているシステムだとしても、さまざまな原因でトラブルが発生する可能性があります。管理者は、こうしたネットワークシステムの動作を正常に保ち続ける必要があります。LAN内に設置したファイルサーバは企業活動においてクリティカルな存在になっています。インターネットを利用するに当たって、メールやDNS、Webといったサーバはすでに必須になってきているため、サービスが止まってしまうと業務自体が停止するといっても過言ではない状況になっています。 システムに障害が起こらないように、そして万が一障害が発生してもすぐに検知し、復旧できる体制を整えておきましょう。システムを復旧する方法については前回解説
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く