タグ

2022年3月24日のブックマーク (6件)

  • データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO

    奈良県でリモートワーク中の玉井です。 日では全くと言っていいほど知名度がありませんが、国外(アメリカ?)のデータ分析界隈では既にメジャーな存在になりつつある「dbt」(data build tool)について、ご紹介します。 dbtとは? 公式情報など 公式はこちら(ググラビリティが低い名前なので検索しづらい)。 (死ぬほどざっくりいうと)データ変換を効率よく実施できるツールです。SaaSとしての提供になっているので(最初からあったわけではなく、後から登場したようです)、Webブラウザさえあれば、すぐに利用することができます。 主な特徴 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と呼称することがありますが、それの「T(変換)」を担当します。E(抽出)やL(ロード)はやりません。 そして、その変換処理をどうやって設定す

    データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO
  • タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog

    はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。 記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。 対象にしている読者は以下の方々です。 データ品質について考えている方 データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方 この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -

    タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
    michael-unltd
    michael-unltd 2022/03/24
    “dbt Cloudにより今までETL構成だったデータパイプラインをELT構成に変更し、EL処理はEmbulkやtrocco、T処理はdbt Cloudと、役割を分担することができます。”
  • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

    こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

    Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
  • BigQuery と Fivetran によるデータ パイプラインの自動化 | Google Cloud 公式ブログ

    ※この投稿は米国時間 2020 年 9 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。 金融、小売、物流など、あらゆる業種の企業はすべて、「プロダクトの市場の状況を把握するにはどうすべきか」という一般的な水平分析の課題を抱えています。この問題を解決するには、詳細なマーケティング、セールス、財務分析を行って、より広範な市場における自らの位置を理解する必要があります。こういった分析では、ビジネス運営の効率性の向上につながる分析情報を企業のデータから取り出します。また、さまざまなデータソースからデータを収集する、収集したデータを一元化されたデータ プラットフォームに統合する、レポートやダッシュボードの開発に対応した分析機能を開発するといった一般的な一連のタスクを行います。 このような課題に対する最も一般的なソリューションでは、大規模な一連のツールが必要で、それぞれ

    BigQuery と Fivetran によるデータ パイプラインの自動化 | Google Cloud 公式ブログ
  • Looker歴2か月、元Tableau運用者がそれぞれの良さを語ります

    Developers.IO 2020 Showcase https://classmethod.jp/m/devio_2020_showcase/ 【概要】 昨今多様なBIツールが世に出ておりますが、クラスメソッドではLookerとTableauを取り扱っています。前職でTableauを社内で運用し、2020年9月からはLookerを使い始めた者の視点から、Tableau、Looker、それぞれの良さをご紹介します。

    Looker歴2か月、元Tableau運用者がそれぞれの良さを語ります
  • 超起業学校スタートアッププログラム(IESSP)

    全国の全ての学生に開かれた、 知識ゼロからでも起業を目指すことができるプログラム 全国の起業に興味のある学生に向けてリアル・オンラインで 開催する起業プログラム、IESSP。 起業家からの現場の生の知見により作成されたカリキュラムを学び、 メンターへの壁打ちにより自らの事業アイデアをブラッシュアップ、 その後、資金調達を目指しVCや審査員の前で事業アイデアのピッチを行い、 終了後は次の起業プログラムへとつながっていく、 「 経験がゼロからでも起業への一歩を踏み出せる 」プログラムです。 全国の起業を目指す仲間や起業家が集まるコミュニティで、 共に切磋琢磨し起業を目指しましょう。

    超起業学校スタートアッププログラム(IESSP)