ビッグデータに関するk_osawaのブックマーク (4)

  • Spark Connectの検証における知見と課題 - MicroAd Developers Blog

    マイクロアドでサーバーサイドエンジニアをしている高橋です。 PySpark x Spark Connectの検証によって知見が溜まってきたので共有します。 検証に至った経緯は別の記事で紹介しています。 developers.microad.co.jp Spark Connect関連の情報は検索してもまだ少なく、試行錯誤しながら進めています。 この記事が少しでも参考になれば幸いです。 構成 知見 Spark Connect server起動時にオプションを全て渡さなければならない Decimal型の列同士の四則演算で精度が変わる Hiveのクエリ・UDFが使える 課題点 構成 今回想定する構成は概ね別記事で紹介されているものになります。 データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog Kubernetes上でSpar

    Spark Connectの検証における知見と課題 - MicroAd Developers Blog
  • 【新卒エンジニア向け】マイクロアドエンジニアの技術スタック(バッチ開発ユニット編) - MicroAd Developers Blog

    こんにちは! システム開発部BDU(BigData Development Unit)でアプリケーションエンジニアをしている高橋です。 主にマイクロアドが気になっている社外のエンジニアの方やマイクロアドの新入社員の方向けに、自分たちのユニットが使っている技術について共有します。 メインは大規模データを取り扱うバッチ開発の話になるので、広告配信に興味のある方は以下の記事をご覧ください。 developers.microad.co.jp BDU(以降「バッチ開発ユニット」と呼ぶ)では主にETL/ELT1処理のバッチを開発しています。 広告配信ログやアクセスログなどのデータを元にして、適切な形に加工した上で各データストアへと蓄積します。 ログの流れの詳細については以下の記事をご覧ください。 developers.microad.co.jp 大規模データを取り扱うバッチ開発に関連する技術への興味が

    【新卒エンジニア向け】マイクロアドエンジニアの技術スタック(バッチ開発ユニット編) - MicroAd Developers Blog
  • S3互換ストレージ Apache Ozoneについて - MicroAd Developers Blog

    はじめに マイクロアドのシステム開発部でインフラエンジニアをしているキガワです。現在マイクロアドではデータプラットフォーム事業を支える大規模な基盤(以下データ基盤)を移行計画中です。 現在のデータ基盤はHadoopエコシステムで実現されており、次期データ基盤ではコンピューティングとストレージを分離する構成を検討中です。 コンピューティング部分についてはマイクロアドで書かれた以前のブログ記事があるので、興味がある方はそちらをご覧ください。 ストレージ部分についてはS3互換のストレージ製品を検討しており、今回はその中で検証したApache Ozoneについて概要をご紹介します。 はじめに Apache Ozoneとは Ozoneの主要コンポーネントについて データのレプリケーション Containerについて Pipelineについて レプリケーションタイプについて おわりに Qiita Ad

    S3互換ストレージ Apache Ozoneについて - MicroAd Developers Blog
  • Impalaのメタデータで困った話 - MicroAd Developers Blog

    前提 処理の概要 メタデータ更新問題 テーブルの転送フロー修正前 メタデータと統計情報の紐づけ テーブルの転送フロー修正後 メタデータ大きすぎる問題 突然のERROR 大きくなりすぎたオンメモリメタデータ 解決方法 まとめ 参考リンク マイクロアドでETL処理周りなどデータエンジニアリングを担当している高橋です。 マイクロアドではアドホックな分析用途にImpalaを導入していますが、集計元テーブルの準備、具体的にはメタデータ周りの設定に手こずった経験があります。 今回はどこに苦しんだのか、どう解決したのかなどをお話ししたいと思います。 前提 マイクロアドでは広告配信ログを共通のHadoopクラスタ(以後、CDHを利用しているのでCDHクラスタと称します)で処理しています。詳細は以下のブログ記事をご参照ください。 developers.microad.co.jp developers.mic

    Impalaのメタデータで困った話 - MicroAd Developers Blog
  • 1