並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 177件

新着順 人気順

dbtの検索結果1 - 40 件 / 177件

  • デジタル庁のデータ分析基盤「sukuna」|デジタル庁

    はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも

      デジタル庁のデータ分析基盤「sukuna」|デジタル庁
    • 高音聞こえないオヤジにハイレゾ音源の意味はある? ~大学教授が回答

        高音聞こえないオヤジにハイレゾ音源の意味はある? ~大学教授が回答
      • データエンジニア道の俺のバイブル

        先人の知恵に学ぶ データエンジニア道で、本当に良かった!読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function

          データエンジニア道の俺のバイブル
        • モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech

          # Event データモデリングとデータ基盤の構築・運用 (第14回ちゅらコラボ)CARTA HOLDINGS x ちゅらデータ 合同イベント https://churadata.connpass.com/event/254417/ ぼくのかんがえる最高のレポーティング基盤 https://speakerdeck.com/pei0804/hokufalsekankaeruzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian-analytics-modernization ディメンションモデリングモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ https://zenn.dev/pei0804/articles/star-schema-design コンフォ

            モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech
          • 注目のITサービスを支えるアーキテクチャ特集 技術選定のポイントと今後の展望 - Findy Tools

            公開日 2024/05/28更新日 2024/07/25注目のITサービスを支えるアーキテクチャ特集 技術選定のポイントと今後の展望 現代のITサービスは、ユーザーに高品質で安定した体験を提供するために、より効率的で柔軟な技術選定が不可欠です。 本特集では、注目企業のシステムアーキテクチャ設計に携わるエンジニアの方々より、それぞれの技術選定における工夫と、未来を見据えた展望についてご寄稿いただいています。 各企業がどのように課題を乗り越え、開発生産性や品質を向上させるためにどのようなアプローチを採用しているのか ー この記事を通じて、実際の現場で活用される最先端の技術や戦略を学び、皆さんのプロジェクトに役立つ洞察を得ていただければ幸いです。 ※ご紹介はサービス名のアルファベット順となっております airCloset - 株式会社エアークローゼット エアークローゼットは日本初・国内最大級、女

              注目のITサービスを支えるアーキテクチャ特集 技術選定のポイントと今後の展望 - Findy Tools
            • データ分析基盤まとめ(随時更新)

              はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf

                データ分析基盤まとめ(随時更新)
              • [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO

                さがらです。 11月8日20時~22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。 本記事はこのイベントのレポートブログとなります。 イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 おまけ:当イベントの応募者数 このイベントですが、なんと

                  [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
                • dbtで見やすいER図を生成する - yasuhisa's blog

                  背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

                    dbtで見やすいER図を生成する - yasuhisa's blog
                  • 300万テーブルのデータ流通を支えるエンジニアリング #GoogleCloud #GoogleCloudDay / 20230523

                    テクノロジーカンファレンス「Google Cloud Day ’23 Tour in TOKYO」の登壇資料です。詳細は当社ニュースをご参照ください。 https://kazaneya.com/5a50c1c1bb7b42f1bd9eb7b35d813ba1 --- スモールチームで 300 …

                      300万テーブルのデータ流通を支えるエンジニアリング #GoogleCloud #GoogleCloudDay / 20230523
                    • 使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs

                      本資料は Tech Play イベント『データ基盤運用の工数削減に効いた俺的ベストプラクティス データマネジメントの勘所』での登壇資料です。 https://techplay.jp/event/940296 データ基盤を構築する際、多くの人が最初にdbt、BigQuery、troccoといったツ…

                        使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs
                      • DWHにおけるデータモデリングで大事にしている考え方

                        こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

                          DWHにおけるデータモデリングで大事にしている考え方 
                        • ネットスーパーにおける商品在庫データのアプリケーション構築事例

                          テストの完了をゴールにしない! ~仮説検証を繰り返し、開発・QA・ユーザーが交流しながら開発することで見えてくる理想の姿~ - #RSGT2024 #DevSumi / Shift left and Shift right

                            ネットスーパーにおける商品在庫データのアプリケーション構築事例
                          • dbt導入によるデータマート整備 - ZOZO TECH BLOG

                            はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc

                              dbt導入によるデータマート整備 - ZOZO TECH BLOG
                            • データ基盤のためのリーダブルSQL

                              これは何? 私tenajimaがデータ基盤のパイプラインを作るとき、レビューするときに意識している点を言語化したものです データ基盤を作る上での考え方の一つに役立てていただければ幸いです この記事の前提 dbtを使ったデータ基盤構築を念頭に置いて書いています、dbtの記法が出てきます CTEsが使える環境を想定しています 記事内でデータエンジニアもアナリティクスエンジニアも総称してデータエンジニアと呼んでいます データ基盤を「使う側」のクエリと「作る側」のクエリの違い 最近ではファーストキャリアからデータエンジニアの方も出てきているかもしれませんが、データサイエンティスト、アナリスト、ソフトウェアエンジニアを経験してデータエンジニアを行っている人が一般的と考えています。 特にデータサイエンティスト、アナリストからデータエンジニアへの転向は私の周りでは多いように感じており、その方達は(過去の

                                データ基盤のためのリーダブルSQL
                              • dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

                                はじめに こんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。 私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。 データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。 私たちもまさにこのような問題に直面し、導入したのがdbtです。 今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。 私たちのようにデータマネジメントにがっつり人的リソースを割けない

                                  dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
                                • 派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog

                                  3行まとめ テーブルの撤退時にはテーブルの参照回数を見ることが多いと思いますが、テーブル単独の参照回数を見るだけだと不十分なことが多いです 派生先のテーブルの参照回数まで考慮すると、テーブルが撤退できるか安全に判断することができます リネージ上の親子関係をWITH RECURSIVEで考慮しながら、累積参照回数をSQLで導出できるようにし、安全にテーブル撤退を判断できるようにしました 3行まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 アイディア: 累積参照回数を計算する 実装 テーブル間の親子関係を抽出する WITH RECURSIVEでテーブルの親子関係を辿る テーブルの親子関係を考慮しながら、累積参照回数を計算する まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 データエンジニアやアナリティクスエンジニアの仕事をしていると、

                                    派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog
                                  • ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization

                                    VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。 https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html ディメンションモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ(基礎) https://zenn.dev/pei0804/articles/star-schema-design 複数スタースキーマ https://zenn.dev/pei0804/articles/multiple-star-schema ファン・トラップ https://zenn.dev/pei0804/articles/datawarehouse-fan-trap

                                      ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization
                                    • スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ

                                      こんにちは。株式会社High Link で業務委託として働いている、データエンジニアのikki(@ikki_mz)です。 私たちデータチームでは、「データの民主化」を推進しており、全社員がデータ利活用を行えるように、dbtを用いた分析基盤の整備に取り組んでいます。 tech.high-link.co.jp データの民主化を推進していくにあたり、テーブル・カラムの説明文は非常に重要な役割を占めます。テーブルやカラムが何を意味しているかの説明は、分析をする上ではとても重要です。 しかし、このテーブルやカラムの説明はなかなか厄介で、データベースを開発した開発エンジニアとコミュニケーションをとらないと、説明文を正確に書くことができません。 そこで私たちは、dbt・スプレッドシートを使って、テーブルやカラムの説明文の入力をするという、組織横断的なプロジェクトを実施しました。 背景と課題 dbt de

                                        スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ
                                      • dbtで始めるデータパイプライン構築〜入門から実践〜

                                        事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

                                          dbtで始めるデータパイプライン構築〜入門から実践〜
                                        • dbtを触ってみた感想 - yasuhisa's blog

                                          データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

                                            dbtを触ってみた感想 - yasuhisa's blog
                                          • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                                            DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                                              dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                                            • 事業計画を立てる上で必要なプロセスをシステム化し改善した話 - pixiv inside

                                              こんにちは。プラットフォーム開発部兼財務データ企画部のshigeniiと申します。 普段はデータ基盤の運用保守、および、全社的なデータ活用やデータ駆動推進を担当しています。 今回は、財務に関する情報の収集からその可視化までの過程をシステム化することで、事業計画や予算策定のプロセス改善に結び付けた我々の取り組みについて、システム化に焦点を当てながら書き綴りたいと思います。 この記事がバックオフィス業務において、同じような課題を抱えている方に少しでもご参考になれば幸いです。 経緯 財務レポート可視化プロジェクト システム化にあたっての具体的な取り組み Before After システム化にあたっての課題 今回の対応 全体的なシステム構成 財務レポートを作るまでのながれ 説明1.各業務システムのデータを取得 説明2.マスタ情報の取得・作成 説明3.データの加工・突合機能 説明4.データに対するセ

                                                事業計画を立てる上で必要なプロセスをシステム化し改善した話 - pixiv inside
                                              • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                                                こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                                                  全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                                                • ASSIOMA(アショーマ) » 「生演奏」や「生の音を知らない」世代が高級オーディオを必要とするだろうか?

                                                  先日、ある食事会でこんな会話をした。「私の友人には大のオーディオマニアが居て、オーディオに数億かけている。でもね、大元さん、数億かけたオーディオでも五万円のバイオリンの生演奏に敵わないらしいよ」 私もオーディオに興味がある方だが、それでも自宅のスピーカはせいぜい10万円程度のもので、とても億には届かない。オーディオの世界に嵌ればアンプ一台一千万、ケーブル一本10万円も珍しくは無く、音響にも拘りだせば、それ専用の部屋まで作ってしまう世界。億に近いお金を注ぎ込んでる人が居たとしても不思議ではない。 「生演奏の魅力」を知っていた世代 「そうか、五万円のバイオリンの音が忘れられなくて、オーディオシステムに二億円もかけたのか」と私は思った。本物を知っているがゆえに、本物の音を自宅で、自分の思い通りに鳴らしたかったのだろう、そう感じたのだ。 インターネットもCDも無い頃に育った60代よりも上の方であれ

                                                    ASSIOMA(アショーマ) » 「生演奏」や「生の音を知らない」世代が高級オーディオを必要とするだろうか?
                                                  • 個人的なdbtの推しポイントを書いてみる - yasuhisa's blog

                                                    dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われる データリネージの可視化ができる データに対するテストが簡単に書ける エンジニア以外の人ともコラボレーションしやすい あたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。 推しポイント:

                                                      個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
                                                    • 小さな分析チームで始めるマイクロデータメッシュ

                                                      一つのデータパイプラインの中で、やりたいこと毎に小さいパイプラインを作る データ変換処理のパイプラインと言うのは、放置しているとどんどん複雑になる傾向にあります。 そこで、ある程度統制するため、層に分けるアプローチがよくとられています。 しかし、この層に分けると言うのは案外難しく、データ更新の頻度や鮮度の管理に課題があります。 今回はやりたい事ごとに都度パイプラインを作り、その中で他にも使えるテーブルを再利用してテーブルの乱立を防ぐ、方法を考えました。 このアプローチの実現にはいくつか制約があります。この記事では、直面している課題、アプローチの利点、そしてdbtを用いた実装方針について記載していきます。 この手法が着目している課題 データメッシュと言うと、大企業におけるデータマネジメントに近い印象を持つと思います。 上記の記事では、大企業における部署のような単位をドメインとしているので、組

                                                        小さな分析チームで始めるマイクロデータメッシュ
                                                      • 【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog

                                                        こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。 はじめに これまでのあらすじ:運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。 とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思

                                                          【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog
                                                        • Terraformとdbtを活用してデータ基盤整備の生産性が向上した話

                                                          はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし

                                                            Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
                                                          • dbt docsを使ったデータカタログの運用事例紹介

                                                            10Xが掲げるオリジナルの品質特性について #nihonbashitesttalk / 10X quality characteristic

                                                              dbt docsを使ったデータカタログの運用事例紹介
                                                            • dbt導入におけるデータモデリング環境整備 - pixiv inside

                                                              はじめに 初めまして。プラットフォーム開発部にてデータ基盤の整備をしているazukiと申します。 今回はdbt(Data build tool)を導入した経緯と非中央集権的なdbtの使い方についてご紹介したいと思います。 今回は導入に関してまとめていますので、dbtの運用面の詳細は別記事で解説予定です。 データモデリングツール導入の背景 ピクシブではプロダクトの多さを理由に非中央集権データ組織を採用しています。 ドメインチームがメインでデータの取り組みやデータモデリングを行い、データ駆動推進室やデータ基盤チームはそのサポートや整備を担当しています。 その背景に関しては、【PIXIV MEETUP 2023】の方でお話していますのでぜひご覧下さい。 speakerdeck.com 今までBigQueryのデータ加工SQLは自社で開発したツールで管理していました。 pythonから変数埋め込み

                                                                dbt導入におけるデータモデリング環境整備 - pixiv inside
                                                              • さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう

                                                                tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを

                                                                  さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう
                                                                • DBT-2によるベンチマーク手順

                                                                  DBT-2とはTPC-Cライクなオープンソースのベンチマークソフトで、OLTP系の負荷を擬似的に作り出すように設計されている。細かい更新系の処理を測定したい時には便利なベンチマークツールである。しかしながら、DBT-2の実行手順は多少面倒くさく、さらにREADMEには偽の(?)情報まで含まれている上にDBT-2の実行手順はあまりWeb上では解説されていない。そこで、今日は簡単ではあるがDBT-2によるベンチマークのやり方を紹介しよう。(以下の例では利用するデータベースをMySQL、DBT-2のバージョンを0.40であると仮定している。) 1. ダウンロード次のページからDBT-2をダウンロードしよう。 http://osdldbt.sourceforge.net/ 2. 補助パッケージのインストール以下のperlパッケージ類はconfigureスクリプトでは「足りないよ」と言ってくれないの

                                                                    DBT-2によるベンチマーク手順
                                                                  • vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog

                                                                    背景 vscode-dbt-power-userがよかったところ 定義にさっと行ける / 戻れる(Go to definitionが使える) VSCode内でモデル間のリネージが見れる VSCode内からdbtのモデルをさっと実行できる モデルファイルの単独の実行も簡単 コンパイル済みのSQLファイルをさっとプレビューできる まとめ 補足: vscode-dbt-power-userの導入方法 背景 dbtは前職時代から含めると二年以上使っていて、SQLでDWHやデータマートの開発をしようと思うともはやこれなしでは生きられないくらいには便利になっている。dbtがあっても大変なクエリは大変ではあるが、大変さは大分緩和してくれる。dbtがなくて、1つのSQLが1000行以上あり、中間クエリがテストもされていない、という状況はもう戻りたくない...。 dbtに限らずであるが、コードは書いていると

                                                                      vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog
                                                                    • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                                                      前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                                                        DWH改善に生かす! 入門elementary - yasuhisa's blog
                                                                      • [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO

                                                                        [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。 イベント概要 公式 Kimball in

                                                                          [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
                                                                        • データ品質を支えるdbt test ~Ubieの事例を添えて~

                                                                          はじめに こんにちは。おきゆきです。現職のUbieでは、Data Analyst / Analytics Engineerとして働いています。(自己紹介ページとTwitterはこちらです) この記事は、dbt Advent Calendar 2022 5日目の記事 / Ubie Engineers & Designers Advent Calendar 2022 5日目の記事です。2つのアドベントカレンダーに関わる dbt×Ubieということで、Ubieの圧倒的なデータ品質を支えるdbt testの事例を紹介します。最近同僚の @jagabass から、Ubieでのデータ品質の重要性とdbtを用いたデータマネジメント領域のさまざまな課題解決事例が紹介されました。この記事は、より具体的なdbt testの例になるかと思います。 上記スライドで書いてあるUbieでのデータ品質の重要性を端的にい

                                                                            データ品質を支えるdbt test ~Ubieの事例を添えて~
                                                                          • Elementaryを用いたデータ品質の可視化とデータ基盤の運用改善

                                                                            Tokyo dbt Meetup #8での登壇資料になります。 - https://www.meetup.com/tokyo-dbt-meetup/events/299602585/

                                                                              Elementaryを用いたデータ品質の可視化とデータ基盤の運用改善
                                                                            • dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER

                                                                              ソフトウェアエンジニアリングの世界では、自動化されたテストを使ってコードの振る舞いを検証するのが当たり前になっている。 同じように、データエンジニアリングの世界でも、自動化されたテストを使ってデータの振る舞いを検証するのが望ましい。 データをテストするのに使える OSS のフレームワークも、いくつか存在する。 今回は、その中でも dbt (data build tool) を使ってデータをテストする方法について見ていく。 dbt 自体はデータのテストを主目的としたツールではないものの、テストに関する機能も備えている。 また、dbt には WebUI を備えたマネージドサービスとしての dbt Cloud と、CLI で操作するスタンドアロン版の dbt Core がある。 今回扱うのは後者の dbt Core になる。 使った環境は次のとおり。 $ sw_vers ProductName:

                                                                                dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER
                                                                              • データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO

                                                                                奈良県でリモートワーク中の玉井です。 日本では全くと言っていいほど知名度がありませんが、国外(アメリカ?)のデータ分析界隈では既にメジャーな存在になりつつある「dbt」(data build tool)について、ご紹介します。 dbtとは? 公式情報など 公式はこちら(ググラビリティが低い名前なので検索しづらい)。 (死ぬほどざっくりいうと)データ変換を効率よく実施できるツールです。SaaSとしての提供になっているので(最初からあったわけではなく、後から登場したようです)、Webブラウザさえあれば、すぐに利用することができます。 主な特徴 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と呼称することがありますが、それの「T(変換)」を担当します。E(抽出)やL(ロード)はやりません。 そして、その変換処理をどうやって設定す

                                                                                  データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO
                                                                                • UbieでのBI民主化の振り返り

                                                                                  こんにちは。Ubie Discoveryのおきゆきです。アナリティクスエンジニア/データアナリストとして働いています。自己紹介ページはこちらです。 Ubieでは、各チームが適切にデータを利活用できるようにするためのBI民主化活動を行っています。この記事では、昨年行ったBI民主化の取り組みの一部を紹介します。 BI民主化が必要なわけ データチームが依頼の窓口となり、各チームの依頼に対応するというやり方は、ナレッジが独人化しがちで、チケット管理などの運用コストが増し、中長期的にみてもデータチームの生産性が低下しがちです。結果、本質的なデータ基盤改善や攻めの分析活動が後手になりやすいです。また、ドメインに詳しい依頼元が分析実施できたほうが良い示唆を得られることが多々あります。 一方、データチームを介さずに各チームで分析の実施までできている以下のケースではどうでしょうか。 「あるデータが欲しいプロ

                                                                                    UbieでのBI民主化の振り返り