[B! 運用][監視] kutakutatriangleのブックマーク

kutakutatriangle id:kutakutatriangle

運用と監視に関するkutakutatriangleのブックマーク (13)

入門入門監視 / reading-practical-monitoring
「入門監視」を読んだので、自分たちのチームに当てはめて考えてみる
kutakutatriangle 2021/02/21
監視

monitoring

運用
リンク
オブザーバビリティ（可観測性）がなぜ必要だと考えるのか - YAMAGUCHI::weblog
はじめにこんにちは、Stackdriver担当者です。本記事は完全に個人の意見です。（念押し） GCP的に担当製品がわかりやすいのでStackdriverの担当と書いてますが、仕事での担当領域的には「オブザーバビリティ (Observability、可観測性)」です。この「オブザーバビリティ」という言葉が近年SREの文脈で語られることが増え、また今年に入って「入門監視 ("Practical Monitoring" の日本語訳)」が刊行されたことで、日本でもより多く耳にするようになりました。 SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム発売日: 2017/08/12メディア: 単行本（ソフトカバー）入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julian発売日: 2019/01/17メディア:
kutakutatriangle 2020/09/23
監視

monitoring

運用

インフラ
リンク
「入門監視」を読んでからの取り組みを紹介します - WILLGATE TECH BLOG
「入門監視」を読んだフロントエンド監視なぜフロントエンド監視が必要なのかどうやってフロントエンド監視をしているのか Runbookを作ろうなぜRunbookが必要なのか Runbookをどう使っていくか監視の民主化勉強会開催今後こんにちは！インフラチームの小林です。今回はインフラチームが現在取り組んでいる、運用環境の改善施策を紹介します。「入門監視」を読んだ 2019年01月に「入門監視」という本が O'Reilly Japanから出版されました。 www.oreilly.co.jp 『システムをどう監視したらよいのか』『監視の仕組みをどう作ったらよいのか』について紹介している本です。実践したい事、反省する事だらけですが、フロントエンド監視とRunbook作成から始めています。フロントエンド監視なぜフロントエンド監視が必要なのか Webサイトの表示スピード
kutakutatriangle 2019/12/20
監視

インフラ

入門

障害

運用
リンク
我々は Kubernetes の何を監視すればいいのか？
freee では仮想マシンのインフラ監視に Mackerel を使っていますが、Kubernetes を使っているところは前例にとらわれずゼロベースで見直そうとしています。現状は Elastic Stack と Mackerel のハイブリット構成になっています。 Elastic Stack による Kubernetes モニタリングシステムの紹介 - freee Developers Blog どの SaaS を使うかを決める前に、そもそも Kubernetes の何を監視すればいいのか？というところから考え直しています。宣言的なマニフェストにより Kubernetes が自律的にあるべき状態を保ってくれるのであれば、これまでの監視とは異なってくるはずです。監視の観点として、ここでは通知レベルを用いて次の 3 つに分類します。 None: メトリクスは収集するが通知しない Notic
kutakutatriangle 2019/12/13
Kubernetes

監視

運用

コンテナ

monitoring

k8s
リンク
Hello, Prometheus!! Goで作るexporter自作入門 / 180727 LT
プロダクトセキュリティの「共通言語」を作る ― 技術教育と Policy as Code を例に / "Language" for Product Security
kutakutatriangle 2018/11/02
Prometheus

監視

運用

golang
リンク
クックパッドにおけるサーバ監視と運用の工夫 - クックパッド開発者ブログ
こんにちは。インフラストラクチャー部の加藤(@EugeneK)です。今回はWebサービスを運用する上で欠かせない、モニタリングをクックパッドでどうしているかという話をします。死活監視と性能監視 Webサービスを運用している以上、そのサービスを稼働しているサーバがあり、サーバには故障やトラブルが発生します。また、どれくらいのパフォーマンスが出ているか、リソースをどのくらい消費しているかなどのトレンドを把握することは、成長するサービスを支えていく上で欠かせません。故障やトラブルにいち早く気づくための仕組みを死活監視と言います。また、サーバリソースの時系列での推移を知るために、グラフとしてトレンドを可視化する仕組みを性能監視と言います。ポーリング監視の限界とZabbixのアクティブ監視クックパッドでは死活監視にNagios、性能監視にMuninを使用してきましたが、サーバ台数の増加
kutakutatriangle 2016/04/13
nagios

munin

AWS

monitoring

Zabbix

監視

運用
リンク
モニタリングシステムのこれまでとこれから (2015-01-30)
Monitoring Casual Talks #7 #monitoringcasual ここ 4 年ぐらいのモニタリング系の OSS/SaaS を列挙してみました。太字は気になってるやつです。 ※このスライドは個人の見解であり、所属する組織の公式見解でも組織を代表するものでもありません※Read less
kutakutatriangle 2015/12/23
monitoring

監視

運用
リンク
Sensu と Graphite による大規模インフラの監視
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog サイトオペレーション本部の渡邉です。サイトオペレーション本部はデータセンタ・ネットワーク・サーバー・OS・ストレージといった全社的なインフラの管理運用や調査検証などを担当しています。今回は、2013年に全社のプライベートクラウドとして導入した OpenStack の監視基盤として、OSS の Sensu と Graphite を採用した事例についてご紹介したいと思います。採用に至るまでサイトオペレーション本部では、もともと 2011 年から内製のプライベートクラウドを開発運用していました。プライベートクラウドでは VM のホストとなるハイパーバイザを大量に運用する必要がありますが、その監視基盤として社内で一般的に利用され
kutakutatriangle 2015/12/23
Graphite

監視

運用

nagios

sensu
リンク
fluentdでつくる監視系 - Qiita
いつもアプリケーションの開発ばかりで、まじめに監視系を考えたことがなかったので、 fluentdを中心にした監視系を作ってみた。前提複数台のアプリケーションサーバ一台のログ収集サーバログにはエラーログとアクセスログの大きく2種類を用意するエラーログは更に複数のレベルでファイル単位にわかれている fatal error warn アプリケーションサーバとログ収集サーバは同一ネットワーク上にあるやりたいことメールで来ても絶対に気がつかない自信がある。異常の側から教えてくれる仕組みを目指す。 fatalログが出た場合は、電話による通知を行う全てのエラーログはchatツールに出力するログのバックアップログの分析・可視化この記事では1, 2, 3についてまとめる。構築 fluentdのインストール公式のドキュメントが一番わかり易い。 Installation | Flue
kutakutatriangle 2015/12/22
fluentd

監視

運用

monitoring
リンク
各社の監視SaaSを利用してAmazonLinuxを監視してみた（NewRelic,Datadog,mackerel） | DevelopersIO
はじめに AWSチームのすずきです。クラウド型のサーバ監視サービスとして提供されている、 NewRelic、Datadog、mackerelを利用して、PHPアプリ（WordPress）が動作するAmazon Linux環境を監視する機会がありました。各ツールについて特別なカスタマイズを実施せず、確認する事ができた項目について紹介させて頂きます。各監視サービスの概要
kutakutatriangle 2015/11/19
newrelic

datadog

mackerel

監視

運用
リンク
【社内資料公開】AWSトラブルシューティングページまとめ／より早い原因把握のために心がけること | DevelopersIO
はじめにこんにちは植木和樹です。オンプレで10年近くサーバーの保守運用をやっていた経験からいいますと、AWSの障害発生率は非常に低くて驚きます。数百台規模のサーバーを扱ってますと、毎日どこかでのサーバーでディスク、CPUファン、メモリーパリティエラーなんかの故障が起きていて日々対応に駆けまわってた覚えがあります。さてAWSの障害発生率が低いといってもゼロというわけではありません。仮に0.1%だとしても1000日つまり3年運用していれば1回くらい障害に遭遇するものです。0.01%だったとしてもサーバーが1万台あれば1日1回なにかしらのトラブルに遭遇しても不思議ではありません。トラブルに遭遇すると、当然サービスや処理に影響をきたしてしまうわけで早期の暫定処置と、その後に恒久的な対策が求められます。その時に重要なのは早く正しく原因を特定することです。トラブルシューティング力が重要です。 A
kutakutatriangle 2015/11/19
Amazon

aws

運用

監視

まとめ

トラブル
リンク
監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note
Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。モニタリング領域サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワークサーバを内部ネットワークから監視するために利用サーバのプロセス監視、サーバ間の疎通監視、エラ
kutakutatriangle 2014/12/03
mackerel

Sensu

monitoring

監視

運用

アーキテクチャ

障害

pingdom
リンク
Easy, proactive monitoring of processes, programs, files, directories, filesystems and hosts | Monit
Monit is a small Open Source utility for managing and monitoring Unix systems. Monit conducts automatic maintenance and repair and can execute meaningful causal actions in error situations.
kutakutatriangle 2014/11/08
監視

運用
リンク
1