前提 処理の概要 メタデータ更新問題 テーブルの転送フロー修正前 メタデータと統計情報の紐づけ テーブルの転送フロー修正後 メタデータ大きすぎる問題 突然のERROR 大きくなりすぎたオンメモリメタデータ 解決方法 まとめ 参考リンク マイクロアドでETL処理周りなどデータエンジニアリングを担当している高橋です。 マイクロアドではアドホックな分析用途にImpalaを導入していますが、集計元テーブルの準備、具体的にはメタデータ周りの設定に手こずった経験があります。 今回はどこに苦しんだのか、どう解決したのかなどをお話ししたいと思います。 前提 マイクロアドでは広告配信ログを共通のHadoopクラスタ(以後、CDHを利用しているのでCDHクラスタと称します)で処理しています。詳細は以下のブログ記事をご参照ください。 developers.microad.co.jp developers.mic