インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。 それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。 これらの知見が少しでもお役に立てばと思い、ここで共有いたします。 なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe
はじめに こんにちは、技術顧問の武内です。 Linuxにはmultiple devices(以下md)と呼ばれるソフトウェアRAID機能があります。この機能はmdadmというツールを使って管理します。サイボウズのSREチームは、Ubuntu16.04のmdadmを検証をした際に次のような2つのバグを発見しました。 mdのresync*1時に使うwrite intent bitmap*2(以後bitmapと表記)のサイズが所定量を超える場合、mdを構成するストレージデバイスに不良セクタを検出した際にbitmapを破壊する mdのサイズ拡張時にbitmapの付与に失敗する これに関して、本エントリでは、次のようなことをお伝えしたいと思います。 これらのバグが具体的にどういうものなのか サイボウズはこのよう場合に、自分たちが使うものだけを修正するのではなくupstreamのOSSを修正するという
昨日、洗濯機の排水口が詰まって水が溢れ出してきたんです。やべーなんだこれっつって、バスタオル3枚洗濯している横で、バスタオル4枚投入してダムみたいなのを作って、ダムにたまった排水を5枚目のバスタオルで吸収して絞って吸収して絞ってというのを繰り返して、こんなこと流石に今回限りにせねばならんと思い、出かける予定を取りやめて業者を呼ぼうとした。 そしたら、改めて体感したんだけど、もうGoogle検索ってホント終わってる。リスティング広告から、SEO対策から、もう上位の会社なんて集客費用めっちゃかけてるのわかるから使いたくなくなる。数年前に中小企業のWeb集客支援(黒歴史)とかやってたから、余計にそういうものに対する嫌悪感がすごい。オウンドメディアとかもあって、「業者に頼まないほうがいい」とか最初は書いてあるんだけど、最終的には業者に頼んだほうがいいということになっていくあのスタイル。うん、俺もそ
色々な説明を省略して非常に雑な表現ではありますが、「IPv6を導入するとインターネットが速くなる」と日本国内で言われている状況があります。NTTフレッツ系のIPv4 PPPoE利用時に、NGNでの網終端での輻輳が発生している場合があり、IPv6 IPoEなどを利用することでIPv4 PPPoEを利用せずにインターネットとの通信が可能になるために、「IPv6の方が速い」という状況が発生するというものです。 IPv4 PPPoEを避けるために、DS-Liteなどを活用するといった話も一部界隈では盛り上がっています。 IPv4 PPPoEに関しては、総務省の研究会で議論が続けられてきましたが、10月27日に行われた「接続料の算定に関する研究会(第8回)」にて、「IPv4 PPPoEを使うと遅い」という状況が改善されるかも知れないと思える新しい動きがありました。 2017年10月27日(金)の10
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く