タグ

dbtに関するmichael-unltdのブックマーク (16)

  • Dbt vs. Dataform: Which one should you choose?

    IntroAs a data consultant, one of my primary responsibilities is to suggest the best data architecture for our clients. A critical component of this architecture is the transformation layer. Before the launch of Dataform, deciding on a transformation tool was relatively simple — Dbt was usually the most suitable choice for most projects. However, since the general availability of Dataform in early

    Dbt vs. Dataform: Which one should you choose?
    michael-unltd
    michael-unltd 2024/04/07
    “以下のレビューは 6 つの主要な側面に基づいています。1. 開発:エンジニアが開発環境でデータ モデルを開発するのを支援する機能。2. コラボレーション:バージョン管理など、エンジニアの相互コラボレーションを支援す
  • Amazon MWAAでdbt Coreをサクッと使ってみたかった

    この記事はdbtアドベントカレンダーの23日目です。(すみません!遅刻しました!) はじめに dbtプロジェクトやモデルをジョブスケジューリングして実行するには、いくつかの選択肢がありますが、特にdbt Coreを使われている場合はApache Airflowを利用されていることが多いように思います。 AirflowはOSSのワークフロー管理ツールで、Pythonによる容易なワークフロー(DAG)の定義とGUIによる管理のしやすさにより、データエンジニアリング界隈で大変人気があります。実行環境としてもDockerコンテナによる分散実行が可能であり、そのスケーラビリティが魅力的です。 ただ、OSSであるため、スケーラブルな環境を自力で構築するのは多少手間がかかってしまいます。そのため、ちょっとした操作でAirflow環境をシュッと立ちあげてくれるマネージドサービスが重宝されます。GCPの「

    Amazon MWAAでdbt Coreをサクッと使ってみたかった
    michael-unltd
    michael-unltd 2023/12/27
    “GCPの「Google Cloud Composer」やAWSの「Amazon Managed Workflows for Apache Airflow(MWAA)”
  • dbt seed で csv ファイルのミスを取り除きながら DWH へ格納させる - Gunosyデータ分析ブログ

    はじめに 現状の実装と課題: 不整合データの混入による手戻り 対応方針: PR 時点でデータ不整合を検出する CI 環境で dbt が使えるようになった dbt seed とは 方針 実装 csv ファイルの配置 プロファイル設定 dbt_project に seeds の設定を追加する シードでロードするテーブルの設定を追加する GitHub Actions で dbt seed と test を行う GitHub Actions で各ステップを記述する 導入結果 さいごに 余談: ChatGPT にエラー解析と初心者解説を頼んだらかなり心理負荷が下がった 参考文献 はじめに こんにちは、BI チームの田辺です。この記事はGunosy Advent Calendar 2023の 12 日目の記事です。 前回の記事は UT さんのコスト削減できる箇所をひねり出すでした。 さて、今回は db

    dbt seed で csv ファイルのミスを取り除きながら DWH へ格納させる - Gunosyデータ分析ブログ
  • 根っこから理解を深める dbt - Gunosyデータ分析ブログ

    はじめに はじめに dbt はそもそもツールとして何を行なうか ELT における Transform について dbt が担っている機能 dbt技術的にどのようにして Transform を実現しているか Jinja テンプレートによる SQL の生成 各種データ基盤に向けたデータ変換の手続きの抽象化 生成された SQL に基づくデータ変換の手続きの実行 さいごに DRE&MLOps チームの hyamamoto です。 最近は涼しくなってきて、秋の気配が感じられるようになってきましたね。 秋は一番好きな季節なので嬉しいです。 さて、今回は dbt について少し変わった切り口で紹介します。 今回の紹介において主眼に置きたいことは以下の内容です。 dbt はそもそもツールとして何を行なうか dbt技術的にどのようにしてその機能を実現しているか その機能の結果 dbt はアプリケーショ

    根っこから理解を深める dbt - Gunosyデータ分析ブログ
  • デジタル庁のデータ分析基盤「sukuna」|デジタル庁

    はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも

    デジタル庁のデータ分析基盤「sukuna」|デジタル庁
  • 2023/03/28 読んだ記事まとめ(dbtを使う上での5つの指針) - /home/by-natures/dev*

    積ん読記事に残っていた dbt の記事が面白かったのでご紹介です。 Pivot 社という会社のアナリティクスエンジニアによる記事で、いくつものプロジェクトdbt を導入した経験から、dbt を使う上での5つの指針が紹介されています。私は dbt を実際のプロジェクトで導入したことはないのですが、この記事は細かい技術的な点ではなく、dbt をどういった場面で使うべきかという話なので今後も参考になりそうです。 5 Lessons I Have Learned Using dbt erics-arsenault.medium.com 1. Follow the dbt style guide dbt にはスタイルガイドが公開されているので、これを利用した方がよいとのこと。 https://github.com/dbt-labs/corp/blob/main/dbt_style_guide.m

    2023/03/28 読んだ記事まとめ(dbtを使う上での5つの指針) - /home/by-natures/dev*
  • dbtを触ってみた感想 - yasuhisa's blog

    データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

    dbtを触ってみた感想 - yasuhisa's blog
  • 広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4

    # Event https://www.meetup.com/tokyo-dbt-meetup/events/287833176/ Tokyo dbt Meetupについて データを扱うすべての人が参加できるネットワーキングイベントです。トークは主にコミュニティメンバーのdbtの経験に焦点を当てていますが、アナリティクスエンジニアリング、データスタック、データマネージメント、モデリング、テスト、チーム構造など、より幅広いトピックに関するプレゼンテーションを聞くことができます。

    広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4
  • dbt と Dataform を比較して Dataform を利用することにしました | MoT Lab (GO Inc. Engineering Blog)

    タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。今回、dbt と Dataform を比較して Dataform を利用することにしましたので、導入経緯および Dataform の初期構築を紹介します。 ※ 記事の対象読者はELTツールを利用している方を対象にしています これは MoT Engineer Challenge Week 2022 Spring の記事です。 はじめに記事では、まず、dbt および Dataform というツールについて簡単に説明させて頂き、次に現在データ分析チームが抱えている課題について取り上げます。その後、2つのツールについて検証した内容を紹介し、その結果、Dataform の導入に至った経緯を説明します。また、最後に Dataform の初期構築で工夫し

    dbt と Dataform を比較して Dataform を利用することにしました | MoT Lab (GO Inc. Engineering Blog)
  • Data Vault 2.0 とは?|dbtvault 入門

    チャプターのゴール Data Vault 2.0(以下 Data Vault) について、ざっくりイメージを掴むところまでをゴールとします。 Data Vault とは? The Data Vault is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent, and adap

    Data Vault 2.0 とは?|dbtvault 入門
  • データ基盤で動いているSQLに手を加えることなく dbt を導入する

    サマリ データ基盤の運用に便利な dbt ですが、既存のSQLを拡張SQL記法で書き換えるのが難しく、移行できずにいるチームも多いと思います。そこで、テスト機能とメタデータ管理機能のみを、既存データ基盤に手を加えることなく、導入する方法を解説します。 *dbt cloud ではなく、OSS 版の dbt を利用します。 記事では、データ基盤の運用課題に有効な手段の一つである dbt を紹介しつつ、実際にBigQuery 上のデータ基盤に導入する方法をデモします。既存の基盤に手を加えずに、以下に示すようなテーブルに対する自動テストや、メタデータを統一して公開するwebサービスを立ち上げることができます。 テスト実行結果のイメージ Found 4 models, 2 tests, 0 snapshots, 0 analyses, 156 macros, 0 operations, 0 see

    データ基盤で動いているSQLに手を加えることなく dbt を導入する
  • dbt の導入支援 | クラスメソッド株式会社

    クラスメソッドのAWS総合支援 コスト最適化からセキュリティ、構築支援、運用保守まで、AWS活用を支援します。

    dbt の導入支援 | クラスメソッド株式会社
  • データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO

    奈良県でリモートワーク中の玉井です。 日では全くと言っていいほど知名度がありませんが、国外(アメリカ?)のデータ分析界隈では既にメジャーな存在になりつつある「dbt」(data build tool)について、ご紹介します。 dbtとは? 公式情報など 公式はこちら(ググラビリティが低い名前なので検索しづらい)。 (死ぬほどざっくりいうと)データ変換を効率よく実施できるツールです。SaaSとしての提供になっているので(最初からあったわけではなく、後から登場したようです)、Webブラウザさえあれば、すぐに利用することができます。 主な特徴 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と呼称することがありますが、それの「T(変換)」を担当します。E(抽出)やL(ロード)はやりません。 そして、その変換処理をどうやって設定す

    データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO
  • タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog

    はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。 記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。 対象にしている読者は以下の方々です。 データ品質について考えている方 データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方 この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -

    タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
    michael-unltd
    michael-unltd 2022/03/24
    “dbt Cloudにより今までETL構成だったデータパイプラインをELT構成に変更し、EL処理はEmbulkやtrocco、T処理はdbt Cloudと、役割を分担することができます。”
  • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

    こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

    Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
  • BigQuery と Fivetran によるデータ パイプラインの自動化 | Google Cloud 公式ブログ

    ※この投稿は米国時間 2020 年 9 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。 金融、小売、物流など、あらゆる業種の企業はすべて、「プロダクトの市場の状況を把握するにはどうすべきか」という一般的な水平分析の課題を抱えています。この問題を解決するには、詳細なマーケティング、セールス、財務分析を行って、より広範な市場における自らの位置を理解する必要があります。こういった分析では、ビジネス運営の効率性の向上につながる分析情報を企業のデータから取り出します。また、さまざまなデータソースからデータを収集する、収集したデータを一元化されたデータ プラットフォームに統合する、レポートやダッシュボードの開発に対応した分析機能を開発するといった一般的な一連のタスクを行います。 このような課題に対する最も一般的なソリューションでは、大規模な一連のツールが必要で、それぞれ

    BigQuery と Fivetran によるデータ パイプラインの自動化 | Google Cloud 公式ブログ
  • 1