背景 Kubernetesは宣言的で自己回復するシステムを提供しているため、おかしなコミットが入ったdocker imageをapplyしてCrashLoopBackOffが発生していたりしても前のPodが生きていて気づかなかったみたいなケースがあります。 またメモリが瞬間的に枯渇するなどでメトリクスには表示されないレベルで急にOOMKilledされるケースがありますが、後からdescribeしてイベントをチェックして気づくことが多いです。しかしイベントは1時間しか保持されないので、調査が遅れると何が起きたかも調べられなくなります。 そこでKubernetes Eventを保持し、ケースによってはSlack通知してすぐに対応できるようにしたくなったのが今回の背景です。 環境 Kubernetes v1.21.1 opsgenie/kubernetes-event-exporter v0.1