ssmjp 201712 はたのさん祭での「運用自動化、不都合な真実」の発表資料です。 詳細: https://www.opslab.jp/publish/20171212-ssmjp-automation.html (運用設計ラボ合同会社 波田野裕一)
2017年10月24日 1万台のサーバを監視できると話題のPrometheusをGrafanaと組み合わせて導入した話~vol2~ どうもNagisaでインフラエンジニアをしております榎戸です。 今回は下記記事の続編ということで 実際にPrometheusのインストールや設定について書いて行こうと思います。 1万台のサーバを監視できると話題のPrometheusをGrafanaと組み合わせて導入した話 ※2017-10-05にv2.0.0-rc.0がリリースされておりましたので v2.0.0-rc.0を使用して説明を行なっていきます。 また光栄な事に意外と反響が大きく、こういうことを知りたいなどのコメントを頂けたので その辺りはまた次回以降に書かせて頂こうと思っております。 今回紹介する内容 導入 Prometheusインストール node_exporterインストール AWS/EC2イン
インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。 それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。 これらの知見が少しでもお役に立てばと思い、ここで共有いたします。 なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe
iPad Air 3(かな?)が楽しみな竹永です。洗濯機はまだ無い。 このところElasticsearchとかKibanaとかばっかり触っていましたが たまには別のツールを触るのも良いと思うのです。 と、いうことで可視化ツールの Grafana を触ってみます。 Grafanaってなに? 可視化ツールです。ダッシュボードを作ってヒャッハーできます。 プラグインの追加でいろいろなところからデータを持ってこれるので簡単にいろいろなデータを可視化することができます。 今のところプラグイン無しで対応しているのは下記のソース。 Graphite Elasticsearch CloudWatch InfluxDB OpenTSDB KairosDB Prometheus プラグイン を入れて試してみたのは下記。 Zabbix …対応しているデータソースがなかなか尖っています。 CloudWatchにひ
こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより本来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと
«Even though Borgmon remains internal to Google, the idea of treating time-series data as a data source for generating alerts is now accessible to everyone through those open source tools like Prometheus [...]» — Site Reliability Engineering: How Google Runs Production Systems (O'Reilly Media) Open Source Prometheus is 100% open source and community-driven. All components are available under the A
インフラエンジニアの多分、華形のお仕事の1つであるミドルウェアの性能検証を久々にガッツリやる機会がありましたので、検証作業の基本的な項目について初心から振り返っておきたいと思います。読みやすさ度外視の詰め込み記事注意警報です。 世の中、雑な検証結果もちょいちょい散乱していて、私自身もそうならないよう注意を払っているわけですが、ガチでやると気をつける項目が多くて、自分で忘れたりしないようにと、誰かにやってもらいたい時に基本を抑えてから取り掛かってもらうために、形にして残しておこうと思った次第であります。 目次 なぜ性能検証をするのか 環境の準備 インスタンスの用意 クライアントの用意 サーバーの用意 ボトルネックになりうる項目 CPU Utilization Memory Network Bandwidth Disk Bandwidth Disk IOPS Disk Latency Disk
It’s not enough to build a website with a great design. You have to keep a watchful eye on it as well. But manual monitoring tasks like uptime and server status are time-consuming. It’s a much better idea to use website monitoring tools instead. Website monitoring is a catch-all term that describes any online service that checks a website for its availability, function, speed, and performance. Mos
はじめましてこんにちは。SREの@masartzです。 私は最近joinしたのですが、今回は本番環境に古くからあるテーブルの掃除作業をした案件をご紹介します。 tl;dr; 本番の住所情報テーブルを消したけど問題なかった話 絶対要らないハズだけど、なかなか削除できずにいるもの を対処する話 本番環境の住所情報テーブルをdropするまでの作業 今回、本番環境の住所情報テーブルをdropしました。 と言っても、事故でもうっかりでもなく、既に使われていなかったものの整理という作業でした。 何故使われていなかったかというのは、メルカリの住所情報の保持の仕方の変遷が関係しています。 初期にはuser情報と住所情報は1対1の関係でした。イメージとしては以下です。 CREATE TABLE IF NOT EXISTS users ( id INT UNSIGNED NOT NULL, name VARC
2017/02/16 Developers Summit 2017
ここから、DevとOpsが協力すればより効率的になる=DevOps、という言葉が生まれました。 当時は大企業においてはDevとOpsが分かれていることが当たり前だったのです。そして、大企業における当たり前が、当たり前ではないことに気付き始め、DevOpsを実現するためのツールができ始めたころでもあります。 ではなぜ、大企業ではDevとOpsが分かれているのが当たり前だったのでしょうか? ハードウェアの時代その昔、産業の主役はハードウェアでした。 そのため、多くの企業はハードウェアを作ることに対して最適化が行われました。 ハードウェアには研究開発、製造、運用サポートといった大きな区分けが存在します。そして、それぞれの仕事において要求する人材レベルは異なります。 加えて、大量生産された製品の運用サポート(設置作業員、サポートセンタ)には、大量の人員が必要になってきます。 したがって、組織を研究
システムエンジニア Advent Calendar 2016の20日目の記事だよ! 昨日は@sh-ogawaさんの「SIerが実践する分散開発とバージョンコントロール」でした!! システム障害のお話 は〜い、こんにちは!いよいよクリスマス間近ですね! この時期になると、キャッキャウフフの予定も盛りだくさんだと思います!1 そんな大事な日に限って起こるのがあれです。 そう、みなさんもよくご経験されているだろう、システム障害です2。 システム障害 それはツラく長く険しい道のりを告げるゴングです。 今回は、その障害対応のお話をしたいと思います。 この記事のアジェンダはだいたいこんな感じです。 報告する はい、システム障害が起きました〜。 キタ━━━(゚∀゚)━━━!! 「マジでか…(´;ω;`)ブワッ」 「なんで今日なんだよ〜( ;∀;)」 障害発生時の想いは人それぞれだと思いますが、まず最初
An Eye on your system Glances is a cross-platform system monitoring tool written in Python. View on GitHub CPU Memory Load Process list Network interface Disk I/O IRQ / Raid Sensors Filesystem (and folders) Container (Docker and Podman supported) Monitor Alert System info Uptime Quicklook (CPU, MEM, LOAD) Cross-platform Written in Python, Glances will run on almost any plaftorm : GNU/Linux, FreeBS
創造開発部インフラグループです。(中の人:水野、中西) 今回の記事は、前回のログ収集基盤ツールまとめのサーバモニタリング版となります。 made.livesense.co.jp リブセンスでは過去 Nagios/Munin で行っており、現在では mackerel を利用していますが、この界隈も変化が激しく多種多様なツールが登場しているため良いところどりをして運用の向上になればと思っています。 それでは早速まとめです。 注: 有名な mackerel/Datadog については省略させていただいています。我々が知らないツールのまとめとなりますことをご了承ください。 Librato www.librato.com 有料SaaS(FreePlan 無し、30日間のトライアル有り) システムリソース等を収集/可視化するサーバモニタリングツール。ホスト単位ではなく、メトリクス単位で管理/課金される
OSS運用監視ソフト 注目の10製品徹底比較 2016年版:実際に検証済み!OSS徹底比較(1)運用監視編(1/8 ページ) 運用監視をはじめ、多くの企業が取り入れているOSS(オープンソースソフトウェア)。目的に応じて最適なものを選択し、うまく使いこなせば強力な武器となるが、それができなければかえって手間や混乱の原因にもなりかねない。本連載では注目のOSSをピックアップして実際に検証し、基本的な優位性、劣位性を明確化した。ぜひOSSを選ぶ際の参考にしてほしい。 2014年9月、「徹底比較! 運用監視を自動化するオープンソースソフトウェア10製品の特徴、メリット・デメリットをひとまとめ」を公開してから1年半が経過している。その間にもシステムの利用規模は拡大を続けており、それとともに肥大化する運用業務の効率化は急務となっている。 「OpenStack」や「Docker」などIaaS/PaaS
Why Netdata? Netdata is different. Our mission is to help you simplify and optimize your IT operations. Netdata provides high-fidelity data, real-time visualizations, reliable alerts, anomaly detection for every metric and a monitoring experience that is affordable and works out of the box. We take care of all the monitoring complexity, so you can focus on your infra! Open Source, at the core Netd
主にアプリケーション開発者向けに、Linuxサーバ上の問題を調査するために、ウェブオペレーションエンジニアとして日常的にやっていることを紹介します。 とりあえず調べたことを羅列しているのではなく、本当に自分が現場で使っているものだけに情報を絞っています。 普段使っているけれども、アプリケーション開発者向きではないものはあえて省いています。 MySQLやNginxなど、個別のミドルウェアに限定したノウハウについては書いていません。 ログインしたらまず確認すること 他にログインしている人がいるか確認(w) サーバの稼働時間の確認 (uptime) プロセスツリーをみる (ps) NICやIPアドレスの確認 (ip) ファイルシステムの確認(df) 負荷状況確認 top iostat netstat / ss ログ調査 /var/log/messages or /var/log/syslog /
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く