Hadoopとビッグデータに関するk_osawaのブックマーク (2)

  • S3互換ストレージ Apache Ozoneについて - MicroAd Developers Blog

    はじめに マイクロアドのシステム開発部でインフラエンジニアをしているキガワです。現在マイクロアドではデータプラットフォーム事業を支える大規模な基盤(以下データ基盤)を移行計画中です。 現在のデータ基盤はHadoopエコシステムで実現されており、次期データ基盤ではコンピューティングとストレージを分離する構成を検討中です。 コンピューティング部分についてはマイクロアドで書かれた以前のブログ記事があるので、興味がある方はそちらをご覧ください。 ストレージ部分についてはS3互換のストレージ製品を検討しており、今回はその中で検証したApache Ozoneについて概要をご紹介します。 はじめに Apache Ozoneとは Ozoneの主要コンポーネントについて データのレプリケーション Containerについて Pipelineについて レプリケーションタイプについて おわりに Qiita Ad

    S3互換ストレージ Apache Ozoneについて - MicroAd Developers Blog
  • Impalaのメタデータで困った話 - MicroAd Developers Blog

    前提 処理の概要 メタデータ更新問題 テーブルの転送フロー修正前 メタデータと統計情報の紐づけ テーブルの転送フロー修正後 メタデータ大きすぎる問題 突然のERROR 大きくなりすぎたオンメモリメタデータ 解決方法 まとめ 参考リンク マイクロアドでETL処理周りなどデータエンジニアリングを担当している高橋です。 マイクロアドではアドホックな分析用途にImpalaを導入していますが、集計元テーブルの準備、具体的にはメタデータ周りの設定に手こずった経験があります。 今回はどこに苦しんだのか、どう解決したのかなどをお話ししたいと思います。 前提 マイクロアドでは広告配信ログを共通のHadoopクラスタ(以後、CDHを利用しているのでCDHクラスタと称します)で処理しています。詳細は以下のブログ記事をご参照ください。 developers.microad.co.jp developers.mic

    Impalaのメタデータで困った話 - MicroAd Developers Blog
  • 1