はじめに 会社で PB 級の Hadoop クラスタを運用していますが、ある日から Datanode の CPU system (Kernel 内での CPU 使用率) が高騰し、Job が遅延するという症状が発現しました。Hadoop で CPU system 高騰というと、 Transparent HugePage 設定が有名ですが、そちらについては既に特定し、対策済みでした。 THP と Hadoop に関係については下記 Blog が詳しいです。 Transparent Huge Pages and Hadoop Workloads 今回は THP ではなく、 "zone_reclaim_mode" の設定による性能劣化について、現象から原因特定に至るまでの経緯と、推奨する設定について解説します。 現象 観測された現象について簡単に箇条書きします。 CPU user が 5% 程度
![Etsukata blog: Hadoop : CPU system 使用率高騰 "zone_reclaim_mode = 1" 編](https://cdn-ak-scissors.b.st-hatena.com/image/square/69e2b2d181c0faa2fb5bbf9ebab4f22f8ceae142/height=288;version=1;width=512/https%3A%2F%2Fblogger.googleusercontent.com%2Fimg%2Fb%2FR29vZ2xl%2FAVvXsEg1rjrPkKWXKg2GYYNY5S6c0VnrIe3Mwan6lWj3ZLqQeMn4MAgm72fPShJaS0vlVR1YsA9xmalDrPQR2SJaWGNkqjjvKKmHEhDESrA3Hbxb2b93PWRhRKv9GGZbAiPJPQ0B8_54XoJxhG33%2Fw1200-h630-p-k-no-nu%2F%2525E3%252582%2525B9%2525E3%252582%2525AF%2525E3%252583%2525AA%2525E3%252583%2525BC%2525E3%252583%2525B3%2525E3%252582%2525B7%2525E3%252583%2525A7%2525E3%252583%252583%2525E3%252583%252588%2B2015-09-27%2B17.10.41.png)