これは、とある僕のチームが運用しているWebアプリケーション (Go製) の、ヘルスチェック用エンドポイントの (リクエストハンドラーの) コードです。リクエストがきたら200 OKを返すだけの、シンプルな実装です。 func health(w http.ResponseWriter, _ *http.Request) { w.WriteHeader(http.StatusOK) } ところが、たったこれだけの処理しかしていないエンドポイントのレイテンシが、ある時からピーク時に著しく劣化するようになり、ひどい時には最大3.4秒もかかるようになってしまったのです。 なぜこのようなことになってしまっていたのか、またそれをどのように調査し、解決したのかについて解説します。 システム概要 今回問題となったWebアプリケーションはGoで書かれています。実行環境は Kubernetes (GKE) で
![Goエンジニアがk8sクラスタでノイジーネイバー問題に遭遇し、解決するまでの記録](https://cdn-ak-scissors.b.st-hatena.com/image/square/10afd16f8fb632724f8d3749c2ec3aabd2eb12c3/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--JdVEWONQ--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3AGo%2525E3%252582%2525A8%2525E3%252583%2525B3%2525E3%252582%2525B8%2525E3%252583%25258B%2525E3%252582%2525A2%2525E3%252581%25258Ck8s%2525E3%252582%2525AF%2525E3%252583%2525A9%2525E3%252582%2525B9%2525E3%252582%2525BF%2525E3%252581%2525A7%2525E3%252583%25258E%2525E3%252582%2525A4%2525E3%252582%2525B8%2525E3%252583%2525BC%2525E3%252583%25258D%2525E3%252582%2525A4%2525E3%252583%252590%2525E3%252583%2525BC%2525E5%252595%25258F%2525E9%2525A1%25258C%2525E3%252581%2525AB%2525E9%252581%2525AD%2525E9%252581%252587%2525E3%252581%252597%2525E3%252580%252581%2525E8%2525A7%2525A3%2525E6%2525B1%2525BA%2525E3%252581%252599%2525E3%252582%25258B%2525E3%252581%2525BE%2525E3%252581%2525A7%2525E3%252581%2525AE%2525E8%2525A8%252598%2525E9%25258C%2525B2%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Aaanrii%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzcxYzAxNDZkODEuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)