[B! hadoop] k_osawaのブックマーク

S3互換ストレージ Apache Ozoneについて - MicroAd Developers Blog

はじめにマイクロアドのシステム開発部でインフラエンジニアをしているキガワです。現在マイクロアドではデータプラットフォーム事業を支える大規模な基盤（以下データ基盤）を移行計画中です。現在のデータ基盤はHadoopエコシステムで実現されており、次期データ基盤ではコンピューティングとストレージを分離する構成を検討中です。コンピューティング部分についてはマイクロアドで書かれた以前のブログ記事があるので、興味がある方はそちらをご覧ください。ストレージ部分についてはS3互換のストレージ製品を検討しており、今回はその中で検証したApache Ozoneについて概要をご紹介します。はじめに Apache Ozoneとは Ozoneの主要コンポーネントについてデータのレプリケーション Containerについて Pipelineについてレプリケーションタイプについておわりに Qiita Ad

k_osawa 2024/01/29

リンク

TiDBをHadoop管理者視点でデータ基盤としての使い所を考えてみる - やっさんメモ

この記事は MicroAd Advent Calendar 2022 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022 の25日目の記事です。今年のアドカレも最終日になりました。とは言え、Distributed computing Advent Calendar 2022 の方はエントリが結構残ってるので、引き続き空いてる枠への参加をお待ちしてます！ qiita.com qiita.com 今回は、Hadoopクラスタ管理者の視点で、データ基盤としてTiDBの使い所について考えてみます。また、データ基盤の規模感としては、ペタバイトレベルのクラスタ、1テーブルあたり最大100TBクラスを想定しています。 TiDBとはデータ基盤として見たときにTiDBに求めるもの構築する場合

k_osawa 2022/12/26

hadoop

リンク

CDH (Hadoop) 入門 - MicroAd Developers Blog

はじめに初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。はじめに分散処理基盤 Hadoop / CDH とは Hadoop エコシステムデータストレージ (HDFS) とリソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

k_osawa 2021/09/21

リンク

Impalaのメタデータで困った話 - MicroAd Developers Blog

前提処理の概要メタデータ更新問題テーブルの転送フロー修正前メタデータと統計情報の紐づけテーブルの転送フロー修正後メタデータ大きすぎる問題突然のERROR 大きくなりすぎたオンメモリメタデータ解決方法まとめ参考リンクマイクロアドでETL処理周りなどデータエンジニアリングを担当している高橋です。マイクロアドではアドホックな分析用途にImpalaを導入していますが、集計元テーブルの準備、具体的にはメタデータ周りの設定に手こずった経験があります。今回はどこに苦しんだのか、どう解決したのかなどをお話ししたいと思います。前提マイクロアドでは広告配信ログを共通のHadoopクラスタ(以後、CDHを利用しているのでCDHクラスタと称します)で処理しています。詳細は以下のブログ記事をご参照ください。 developers.microad.co.jp developers.mic

k_osawa 2021/03/08

リンク

Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog

マイクロアドではデータ基盤に Hive が使われています。データ基盤について、以下の記事をご確認ください。 MicroAdのデータ基盤より使いやすいデータ分析基盤にするためにこの一年間、Hive を使う機会が増えましたのでクエリパフォーマンスを改善する為に Hive 設定を試行錯誤しましたので、その中からいくつか紹介します。前提条件 1. Vectorization 2. Cost-based Optimization (CBO) 3. 並列実行 4. Map Join 参考リンク前提条件 Hive 1.1.0-cdh5.14.0 まず基本ですが SET; を実行すると、以下が表示されます。システム変数環境変数 Hadoop 設定（ユーザーが定義した・デフォルトプロパティ） Hive 設定（ユーザーが定義した・デフォルトプロパティ） set, define, hivevar で

k_osawa 2020/04/27

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

hadoopに関するk_osawaのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス