タグ

サーバー監視に関するlibkazzのブックマーク (2)

  • エンジニア組織としての監視文化の作り方 | Nagisaのすゝめ

    エンジニア組織としての監視文化の作り方 Nagisa インフラエンジニアの榎戸です。 今回は僕が入社してから一年が経ったので、 僕が感じた事とやってきたことを監視に絞って書きたいと思います。 ※また今回は技術的な内容についてはあまり触れておりませんのでご了承ください。 入社時の状況 今ではかなり改善できたので笑い話となりますが 当時(昨年9月)はなかなか言葉には出しづらい状態でした。 当時の状況 監視はCloudWatchに数個 Nagiosとmuninが監視の役目を果たさず稼働している 監視の重要性の認識不足 障害が起きてから数時間後に気付く 障害対応をすると感謝されながらランチに連れて行ってもらえる こんな状態でした。 インフラエンジニアとして入社したのに 障害対応をするとランチに連れて行ってもらえる という体験には驚きと動揺が隠せませんでした。 今まで当たり前だった障害対応ですが お

    エンジニア組織としての監視文化の作り方 | Nagisaのすゝめ
  • 異常検知ナイトでLT登壇しました - yasuhisa's blog

    機械学習の中でもマイナーなテーマであろう異常検知がテーマの勉強会、異常検知ナイトというイベントでLTの登壇をしてきました。マイナーテーマなのに300人以上が集まる東京怖い。 3ページしかないですが、発表資料も置いておきます(LTのレギュレーションで3ページ5分)。 異常検知ナイト LT登壇資料 はてな id:syou6162 from syou6162 LTのテーマは、現在自分がどんなデータで異常検知をやっているか、どういう困り事があるかを発表してプロの方からアドバイスをもらおうというものです。Mackerelで今まさに異常検知機能の開発をしていて、時系列周りのモデルのハイパーパラメータを開発データでチューニンングしたいけれども、そもそも異常データを含む開発データって手に入らないことが多くてどう対応していくのがよいのか?という質問をさせてもらいました。プロからのアドバイスは動画で見れるので

    異常検知ナイトでLT登壇しました - yasuhisa's blog
  • 1