並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 175件

新着順 人気順

dbtの検索結果41 - 80 件 / 175件

  • ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO

    ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま

      ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
    • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

      こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

        Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
      • dbt Labs | Transform Data in Your Warehouse

        Build trusted data products faster Accelerate your data transformation process with dbt Cloud and start delivering data that you and your team can rely on. Delivering reliable data shouldn’t be so hard Ditch outdated tools that bog down your teams and impair data trust. There’s a better way to deliver data products that can free you from slow, costly, and unreliable data development. Stop deliveri

          dbt Labs | Transform Data in Your Warehouse
        • dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。

          dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。 サマリ dbt Labs では、dbt のプロジェクト、並びに変換パイプラインに関するベストプラクティスを紹介しています。 さらに、いくつかのベストプラクティスについては、自動で評価可能な dbt project evaluator というツールも公開されています。 今回は、dbt project evaluator で評価可能な、20 個のベストプラクティスを全て「違反」した dbt プロジェクトを1から作成し、このツールを当てて評価した上で、修正をかけました。 実際にツールがうまく検知してくれるのかを確認し、検知された項目を修正する場合の手続きとその難所や、現実的な運用方法をまとめています。 ※この記事は dbtアドベントカレンダー2022 の 12/1

            dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。
          • 今さら聞けないdbtの基本LT

            dbt(data build tool)はもはやデータ領域ではデファクトスタンダードになりつつあります ここ1〜2年ぐらいで急速に発展したdbtですが、なんで使ってるの?なんでデファクト?とかって疑問あるかと思います。 なので社内勉強会向けに作ったdbtの基本のき 的なLTを作りましたので放流します!

              今さら聞けないdbtの基本LT
            • Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG

              当記事は、dbtのカレンダー | Advent Calendar 2023 - Qiita の23日目の記事です。 こんにちは、株式会社CARTA MARKETING FIRMのデータエンジニア、@pei0804です。データエンジニアリングのほか、組織運営やデータエンジニア育成にも携わっています。 本記事では、Snowflakeを中心とした当社のデータ基盤「Vision」と、その中核であるdbtの利用について深掘りします。dbtを活用することで、SQLのみでデータパイプラインを効率的に構築し、作業の効率化を図っています。 dbt導入の詳しい導入背景は以下のスライドでご覧いただけます:広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4 - Speaker Deck。 私たちのチームでは、ビジネスに直接価値を提供しているdbtモデルの開発はプロ

                Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG
              • dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog

                この記事はTech KAYAC Advent Calendar 2023の8日目の記事です。 こんにちわ。その他事業部SREチームの@mashiikeです。 最近、風変わりな記事を連投しているのですが、今回も風変わりです。 ひとことで要約すると、 私は!Github Actionsから!Redshiftにアクセスしたいんだ!!! です。 TL;DR dbtのCIを実現したい。ローカルのunit-testはできてるんだが、Github ActionsからRedshiftへのアクセスに難がある。 Github ActionsからRedshiftにアクセスするために頑張ってみた。 kayac/ecspressoで踏み台となるECS Taskを立ち上げる。 fujiwara/ecstaでportforwardingする。 mashiike/redshift-credentials で一時認証情報を

                  dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog
                • dbtではじめる クエリの再利用と正確性の向上について

                  複雑なドメインを扱うプロダクトの探索フェーズではいつどのようにテストをするのか / How to testing during exploratory phase

                    dbtではじめる クエリの再利用と正確性の向上について
                  • dbt Semantic Layer ( MetricFlow ) の理解を深める

                    OODAふりかえり 何って…ただ毎スプリント、違うふりかえり手法を採用してるだけだが? / Retrospectives with OODA

                      dbt Semantic Layer ( MetricFlow ) の理解を深める
                    • BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog

                      はじめに ※Timeeのカレンダー | Advent Calendar 2023 - Qiitaの12月8日分の記事です。 okodooooooonです BigQueryの料金爆発。怖いですよね。 dbtでの開発が進んでたくさんのモデルを作るようになると、デイリーのビルドだけでも凄まじいお金が消えていったりします(僕はもう現職で数え切れないくらいやらかしてます)。 コストの対策として「パーティショニング」「クラスタリング」などが挙げられますが、今回は「増分更新」の観点で話せたらと思います。 「dbtのmaterialized=’incremental’って増分更新できておしゃれでかっこよくてコストもなんとなく軽くなりそう!」くらいの認識でさまざまな失敗を経てきた僕が、BigQueryにおけるincrementalの挙動を説明した上で、タイミーデータ基盤における増分更新の使い方についてまとめ

                        BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog
                      • dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                        dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                          dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
                        • dbt Semantic LayerとSteepで実現するデータ民主化 - Gaudiy Tech Blog

                          はじめまして、Gaudiyでアナリティクスエンジニア(副業)をしているkuwakenです。 Gaudiyでは現在、データの民主化を進めていますが、その過程でSQLを書く手間や負担、新しいBizメンバーのオンボーディングなどの面で、課題が生じていました。 今回は、その課題を解決するために導入した、dbt Semantic LayerとSteepという2つのデータ系プロダクトに関するお話をします。 1. dbt Semantic Layerの導入背景 2. Steep導入の決定理由 3. dbt Semantic Layerに関するナレッジ 3-1. ディレクトリ構造 3-2. dbt Cloud CLI 3-3. 時間のdimensionはdatetime型で揃える(BigQueryユーザーのみ) 3-4. entitiesを理解する 4. 今後やりたいこと 5. さいごに 1. dbt S

                            dbt Semantic LayerとSteepで実現するデータ民主化 - Gaudiy Tech Blog
                          • データエンジニア界隈で話題のdbt(data build tool)のまとめ - Qiita

                            概要 データエンジニア界隈で話題となってきたdbtに関する調査内容を共有します。 OSS版のdbtでも機能が充実しており、データエンジニアの方には一部の機能の利用だけでも価値があるツールです。 必要に応じて、この記事を更新します。 dbt(Data Build Tool)とは dbtとはData Build Toolの略であり、dbt Labs社が開発しているデータ連携のELTにおけるT(データストア内でのデータ変換)の実施をサポートするツールです。 機能をざっくり整理すると下記のものがあり、SQL文のコンポーネント化やドキュメントの自動生成に特異性があります。 有償版であるdbt cloudとOSS版であるdbt Coreがあります。dbt cloudにて、developer版という個人検証用の無償ライセンスもあるので、とりあえず触りたい方はこちらがおすすめです。 引用元:dbt Pri

                              データエンジニア界隈で話題のdbt(data build tool)のまとめ - Qiita
                            • Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログ

                              こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 データプラットフォームチームはデータAI部のメンバーで構成されていて、データ分析基盤を中心としたデータ活用に関するシステムに責務を持つチームです。 データAI部が出来てから3年が経ち、データ分析基盤を今の形で運用をして1年半が経過しました。 データエンジニアの採用活動の中でデータ分析基盤を紹介する必要がある一方、説明コストが高く困っていました。 そこで今回は「ソクラテス」と呼んでいる社内のデータ分析基盤について紹介します。 (データAI部ではシステム基盤に哲学者の名前をつける慣習があります。) ソクラテスの責務 Classiのデータ分析基盤ではData Lake(DL), Data Warehouse(DWH), Data Mart(DM)の3層構造を採用しており、そのETL

                                Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログ
                              • 【データ可視化/Streamlit】Streamlitで作ったアプリからSnowflakeのテーブルを自由に更新する方法 - Qiita

                                前置き こんにちは。データエンジニアの山口です! Streamlitでデータ可視化アプリを作成しており、 Streamlitアプリ上に手入力した値とSnowflake内の値を結合してデータを可視化したいなと思ったので、やり方を考えてみました。 結論 Streamlitアプリ上に手入力した値をSnowflakeのテーブルにデータを挿入・更新して、 すでにSnowflakeに入っているデータと結合すればいいのではないかと言う考えに至りました。 Streamlitのform_submit_button関数が使えそうだったので、そちらを使っていきます! 機能を実装する 早速機能を実装していきます! 前準備 まずはStreamlitから更新をするテーブルを用意しておきます。 今回は従業員マスターというテーブルを以下のクエリで作成して、 このテーブルの中にINSERT文などで、いくつか適当にデータを入

                                  【データ可視化/Streamlit】Streamlitで作ったアプリからSnowflakeのテーブルを自由に更新する方法 - Qiita
                                • Beatrust における Modern Data Stack(Exploratory / Hightouch / Holistics) の可能性検証 - Beatrust techBlog

                                  こんにちは、Beatrust で Data Scientist をやっている Ouyang(欧陽 江卉)です。 Beatrust では、ユーザー情報を匿名化した上でプロフィールデータや行動ログなどの様々なデータを蓄積・活用しています。また、クライアントや内部向けにデータ分析・レポーティングも行っています。それらのほとんどは手に馴染んだツールを使って内製しているのですが、近年モダンなデータスタックを用いたデータ利活用もトレンドになっています。今回は、そのトレンドをキャッチアップし、有用なツールがあれば積極的に導入していこうと考え、下記のツールを試用しそれぞれの強みをまとめてみました。 データの探索的分析のツール Exploratory Reversed ETL プラットフォーム Hightouch データモデリング・レポーティングツール Holistics Beatrust のデータ分析にお

                                    Beatrust における Modern Data Stack(Exploratory / Hightouch / Holistics) の可能性検証 - Beatrust techBlog
                                  • dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ

                                    こんにちは、Gunosy Tech Lab DR&MLOps チームの楠です。 この記事は Gunosy Advent Calendar 2022 の 11 日目の記事です。 昨日の記事は UT@mocyuto さんの『RailsのフロントをReactへリファクタしたとき、スキーマをOpenAPIベースの自動生成にした話』でした。 この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。 はじめに dbt とは? dbt についての参考資料 dbt snapshot とは? どんなときに使える? dbt snapshot のまとめ dbt snap

                                      dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ
                                    • 最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点) | DevelopersIO

                                      さがらです。 ここ1~2年は新しい製品のリリースが落ち着いてきた印象ですが、Modern Data Stack界隈ではたくさんのデータカタログ製品が存在しています。 私も2年くらい前に色々触って調査したものの、この2年間での各製品のアップデートが凄まじく「どの製品がどの機能を持っているんだっけ…?」と知識が怪しくなってきてしまっている状況です。 そこで、今回改めて各製品の公式ドキュメントをベースに、最近のデータカタログの各種機能の有無を確認してみたので、本記事でまとめてみます。 ※注意事項:各製品のアップデートのスピードは本当に早いため、半年も経てば現時点で出来ていなかったことが出来ているようになっている可能性が高いです。最新の情報はご自身で確認の上、本記事は参考程度にご利用ください。 比較対象のデータカタログ 比較対象としては、以下のデータカタログを比較します。 SaaS Atlan S

                                        最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点) | DevelopersIO
                                      • 弁証法的行動療法 - Wikipedia

                                        4週間以上休んだ場合、治療を受けられなくなる。 それぞれ個人精神療法を受けること。 薬物やアルコールの摂取をしてセッションに参加しない。 セッションの場以外で、他の患者と過去の自殺関連の話題について話さない。 他の患者の助けに快く応じることを受け入れる。 セッション中に得た他の患者の個人情報は守秘する。 セッションに遅れる・欠席する場合は事前に連絡をすること。 セッション外で、他の患者と「個人的」な関係を持たない(グループでは可) 性的な関係にある2人が、一緒にセッションに参加してはいけない。 4週間以上休んだ場合、治療を受けられなくなる。 重い病気や重要な用事がある場合、やむをえない旅行などの場合の欠席は認められる。 それぞれ個人精神療法を受けること。 グループスキルトレーニングは基本的に個人精神療法の付加的な役割であるため。スキルトレーナーのみでは担当する人数が多くフォローしきれず、ま

                                          弁証法的行動療法 - Wikipedia
                                        • ディメンショナル・モデリング

                                          VOYAGE GROUP Techlog Advent Calendar 2020 13日目 ディメンショナル・モデリングとは ディメンショナル・モデリング Wikipediaには以下のような説明がある。 Dimensional Modeling (DM) is a data structure technique optimized for data storage in a Data warehouse. データウェアハウスにデータを格納するために、最適化されたデータ構造の手法。 背景 情報システムは2つの大きなカテゴリに分類される。1つはビジネスプロセスの実行支援する業務システム、もう1つはビジネスプロセスを分析支援する分析システム。それぞれ根本的に異なる目的があるため、異なる原則に基づき設計が進化してきた。 業務システムの目的は、ビジネスプロセスで発生した重要な事実や行動を記録する

                                            ディメンショナル・モデリング
                                          • dbt のデータモニタリングツール Elementary を使ってデータ品質管理を試してみた - Techtouch Developers Blog

                                            テックタッチアドベントカレンダー 13 日目を担当しますデータエンジニアの acchan です。 この間完全個室型のサウナに初めて行ってきまして、贅の極みを堪能してきました。みなさんもこの 1 年間頑張ってきた自分のご褒美にいかがでしょうか。 はじめに Elementaryとは チュートリアルをやってみる 下準備 パッケージのインストールと Elementary の初期設定 Elementary テストの追加 テストの実行とレポートの生成 Slack通知を試してみる さいごに はじめに 弊社では最近、データ分析基盤のモデリング用途として dbt を使い始めました。まだ間もないですが、モデルの共同開発が以前より活発になり、導入したことによるメリットが実感として現れつつあります。 しかし、作成されたモデルは本当に正しいデータを持っているのか?定義された指標通りに集計がされているのか?といった品

                                              dbt のデータモニタリングツール Elementary を使ってデータ品質管理を試してみた - Techtouch Developers Blog
                                            • dbtvault 入門

                                              データモデリングである Data Vault 2.0 をベースに作られた dbtvault パッケージを使い、 BigQuery に分析用のテーブルやビューを作成する手順をまとめた本になります。 dbt に関する説明は含まれておりませんので、詳しく知りたい方は下記をご参照ください。 https://zenn.dev/dbt_tokyo/books/537de43829f3a0 https://zenn.dev/foursue/books/31456a86de5bb4

                                                dbtvault 入門
                                              • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                                                プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                                                  社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                                                • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

                                                  このドメインは、お名前.comで取得されています。 お名前.comのトップページへ Copyright © 2020 GMO Internet, Inc. All Rights Reserved.

                                                  • dbtで管理しているデータの可用性をelementaryで分析する - yasuhisa's blog

                                                    データの可用性を可視化したい データの可用性の解像度を上げたい: elementary-data elementaryによる細かい可視化 大雑把にデータセット単位で可用性を可視化したい まとめ データの可用性を可視化したい データ品質は正確性や最新性など様々な項目に分解することができますが、可用性(Availability)はその中でも基礎的な項目です。使いたいときにデータが使えないと困るので。 自分が所属しているチームはdbt(cli)およびdbt cloudを使っていますが、可用性を考えるのであれば cli: dbt runの実行結果 dbt cloud: Jobsの実行結果 をそれぞれ確認したり、こけているようであればアラートを飛ばすという運用が多いと思います。これだけだと「いつこけた」しか分からないので、Datadogを使って「いつこけた」「いつ復旧した」「こけて落ちていた時間はど

                                                      dbtで管理しているデータの可用性をelementaryで分析する - yasuhisa's blog
                                                    • データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる - Qiita

                                                      概要 dbt(Data Build tool)を、前提知識となるデータエンジニアリングにおける現状を踏まえて、どういったツールであるかを説明します。dbtがデータエンジニアリングのあるべき姿としてデザインされており、共有されることが少ないデータエンジニアリングのナレッジを含むため、dbtを利用しない場合でも本記事の内容は有益な情報となっております。 dbtの概要については、下記の記事で整理しています。 データエンジニアリングの技術背景 ストレージコンピューティングの分離が可能なデータ処理エンジン(Spark、Presto等)がデータ分析基盤のデータストアとして用いられるようになってきています。従来であればデータレイクではデータの管理が困難であったが、レイクハウスフォーマット(Delta Lake、Hudi、Iceberg等)の開発によりデータレイクにACID特性を持たせられるようになり、デ

                                                        データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる - Qiita
                                                      • dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog

                                                        3行まとめ dbtのジョブが失敗した際やテーブルの廃止検討の際に、BI上のどのダッシュボードで利用されている(データリネージ)か知るのは重要です TableauのGraphQLのAPIからWorkbookとBigQuery上のモデルの埋め込みの関係を知ることができます dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureとして出力するスクリプトにより、dbtのジョブの失敗やテーブルの廃止がTableauのダッシュボードに与える影響などを調べやすくなりました 3行まとめ 背景 課題: dbtのexposureとしてダッシュボードを手動で記入し続けるのは難しい 解決方法: TableauのGraphQLのAPIを使い、 dbtのexposureを自動生成する 発展的話題 背景 業務において、DWHやデータマートの生成にdbtを、BIツールとしてTablea

                                                          dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog
                                                        • クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年7~9月合併号 | DevelopersIO

                                                          データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。 先月、先々月は業務多忙のため、合併号とさせていただきます。(ゴメンナサイ m(_ _)m) Amazon Redshiftは、Redshift Serverlessのスケジューラやシングルサインオンの対応、 Amazon Forecastとの統合、QUALIFY句のサポートを開始しました。AWS Glueは、AWS Glue for RayがGAになった他に、AWS Glue for Apache Spark 向け Snowflake 接続の一般提供開始、Amazon CodeWhisperer をサポートするようになりました。Amazon QuickSightは、CI/CDを可能にするアセットのデプロイを

                                                            クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年7~9月合併号 | DevelopersIO
                                                          • DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの

                                                            この記事はdbt Advent Calendar 2022の12月1日の記事です。 サマリ DuckDBとdbtを使えばローカル環境で一定のデータ量であればオレオレDWHっぽいものが作れるようになる 社内にデータ分析基盤がない、データ活用しようにもデータ基盤がなく本格的に取り組もうと思うとセキュリティや運用までかんがえると始めることすらままならないようなプロジェクトや会社でも始められる可能性がある MLのデータの前処理とdb Pythonモデルを使ってローカル環境で一定のクレンジングと前処理のパイプライン等も作れるかも? DuckDBとは? SQLiteをベースとした軽量で高速なOLAPデータベースです。 近年のPCのメモリ増加で16GBとか乗っていると数百万行ぐらいのデータでもローカルで高速に一定処理することが可能になってしまっています。 詳しくは @notrogue さんが書いた記事を

                                                              DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの
                                                            • タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog

                                                              はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。 本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。 対象にしている読者は以下の方々です。 データ品質について考えている方 データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方 この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -

                                                                タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
                                                              • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

                                                                はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

                                                                  dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
                                                                • dbt Core を GCPのCloud Run JobsやBatchで実行する方法

                                                                  はじめに dbtを用いたデータ基盤運用がお盛んになったなと個人的に感じます。 よく記事で見かけるのが、DWH製品としてSnowFlake, そしてデータ変換にdbt Cloudでしょうか。 そして DWH製品としてSnowFlake, そしてデータ変換にdbt core を ECS Fargateに乗せてサーバレスにやる方法も最近記事で見ました。 あとは dbt core を AirFlow(Cloud ComposerやMWAA含む)で実行する方法もしばしばみかけます。 しかしどれも自分には、あまりFitしませんでした。なぜならば求めている要件としては以下だからです BigQueryの案件が多いのでBigQueryにクエリ投げれればOK 1日1回のバッチ回せれば良い スケジュール設定できればOK dbtドキュメントもみたい 無課金or微課金(ストレージ料やクエリスキャン料除く)ですませた

                                                                    dbt Core を GCPのCloud Run JobsやBatchで実行する方法
                                                                  • 日本OSS推進フォーラム

                                                                    | 目的と背景 | 活動内容と成果 | 今後の活動内容 | メンバ一覧 |  1.開発基盤WGの目的 開発基盤WGの活動目的は「サーバLinux、OSSの更なる普及・拡大のためのベンダサイドの課題解決」です。 企業内にあるOSSに関するノウハウをオープン化し、安心してOSSを使えるような環境作りを目指しています。 2.設立の背景 OSSの実システムへの適用が、Linuxだけでなく、ミドルウェアにまで拡大していることで、OSSを適用したシステムが複雑化しています。 それにもかかわらず、OSSでビジネスを展開するベンダサイドでは、 性能・信頼性などのシステム設計・構築に必要なデータが不足しており、結果として、各社が同じような評価を実施している 障害解析ツールが不足しており、原因究明に時間がかかる といった問題が発生しています。 そこで、開発基盤WGでは、次のよう

                                                                    • dbt 入門

                                                                      dbt(data build tool)というアナリティクスエンジニアがデータ変換をデータウェアハウス(DW)でかんたんに行うためのツールについての本です。 dbt はいわゆる ELT(Extract, Load, Transform)の T を担当するツールで、データがすでに DW にロードされてる状況で使います。 いわゆるモダンデータスタック(MDS)を構成する技術スタックの一部に挙げられることが多くなってきています。 また dbt はアドホックなコードでカオスに陥ってしまいがちなアナリティクスエンジニアが、バージョン管理や CI などのメリットを享受しソフトウェアエンジニアのように働くための一助にもなり得るツールです。

                                                                        dbt 入門
                                                                      • 需要急増「データエンジニア」はなぜアツいの?「縁の下の力持ち」を面白がるデータのスペシャリストたちを直撃

                                                                        TOPインタビュー需要急増「データエンジニア」はなぜアツいの?「縁の下の力持ち」を面白がるデータのスペシャリストたちを直撃 DATUM STUDIO株式会社 CTO 光田健一 横浜国立大学大学院にて応用数学を専攻。卒業後、凸版印刷で電子書籍事業の立ち上げを経て、GREEでSNSやゲームの分析を経験。その後、人工知能研究・深層学習研究の先駆者、松尾豊氏が技術顧問を務める「PKSHA Technology」で、アルゴリズム・システム開発に携わる。2019年DATUM STUDIO(データム スタジオ)株式会社に入社し、現在はCTOとしてプロジェクト遂行、組織の技術力向上に貢献している。 ちゅらデータ株式会社 CTO 兼DATUM STUDIO株式会社 菱沼雄太 北海道出身。名古屋市の専門学校を卒業後、市内の金融系SIerのエンジニアとして上流工程を担当した後、東京でエンタメ・ゲームなどの業界で

                                                                        • 高音質をうたう新たな「CDのようなもの」、プラチナSHM | スラド ハードウェア

                                                                          ストーリー by hylom 2013年08月14日 17時02分 192kHz/96bitのデータはまだ出さないんですか? 部門より 買い換え需要狙いか、もしくは単価の引き上げか、以前から高音質をうたう音楽CDは登場していたが(SME、高音質CD「Blu-spec CD」を開発、ポリカーボネートが違うSHM-CD、中島みゆきの高音質な「ガラス製 CD」がリリースへ)、このたび、「より高音質」という「プラチナSHM」なるディスクが登場した(日経トレンディネット)。 「プラチナSHM」は、反射膜にプラチナを採用、さらにレーベル面を「ターコイズブルー(緑がかった青)」でコートすることでプレイヤー内での余計な光の反射を吸収することで「音質向上を実現した」という。反射率の問題から、通常のCD-DA規格には適合しないため「CDではない」とのことだが、通常のCDプレーヤーではほぼ問題無く再生できるそう

                                                                          • dbtとDataformを比較し、dbtを使うことにした

                                                                            AuthorsTwitter@__Attsun__Published onWednesday, February 10, 2021 最近、業務で DWH / Datamart の整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところ dbt と Dataform がツールとして有力そうだったので、比較してみました。 TL;DRdbt は機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。Dataform は Web ビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbt に比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じるので、どちらが良いかは要求や組織の置かれた状況次第でしょう。私の所属する会社 (Ubie,

                                                                              dbtとDataformを比較し、dbtを使うことにした
                                                                            • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                                                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                                                                【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証
                                                                              • Tonamelのデータ基盤 ~データモデリング編~

                                                                                #nakanoshima_dev 9/22 18:30~ https://nakanoshima-dev.connpass.com/event/221243/ nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)の発表資料です。

                                                                                  Tonamelのデータ基盤 ~データモデリング編~
                                                                                • 元アナリストがdbtでプロダクトのデータパイプライン構築できるようになった話

                                                                                  こんにちは、@tenjinです。 本日12月3日は、待ちに待った映画「THE FIRST SLAM DUNK」の公開日ですね! 僕は初日の座席指定券を予約してあったので、この後日比谷の映画館まで観に行ってきます! ちなみに最近のお気に入りスーパーは、長野県のツルヤです。 道民なので、そもそも長野県は空気が肌に馴染む

                                                                                    元アナリストがdbtでプロダクトのデータパイプライン構築できるようになった話