サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
attsun1031.github.io
AuthorsTwitter@__Attsun__Published onMonday, March 20, 2023 この記事について私が現在所属する Ubie Discovery(以下 UD)で働く Data Engineer の視点で、他データ職種との関わりや違いについて書きました。 カジュアル面談など社外の方とお話する中で、以下のような質問が頻出するため記事としてまとめてみようと思った次第です。 Analytics Engineer と Data Engineer の違いは?Data Engineer は実際、どのような業務をしているの?技術的にはどのようなスタックで仕事をすることがあるの?TL;DRUbie Discovery には、Data Engineer, Analytics Engineer, ML Engineer といったデータ職種がありますData Engineer
AuthorsTwitter@__Attsun__Published onMonday, September 6, 2021 Aboutpydantic 単体でも利用可能な便利な機能についてご紹介します。 pydantic とは公式ドキュメント の冒頭には以下のような記載があります。 Data validation and settings management using python type annotations. python の型アノテーションを使った、データバリデーションと設定管理のライブラリ、ですね。 基本的な使い方このあとの話を理解するのに必要な、基本となる機能をさらっと紹介します。 モデルの定義pydantic では、クラスを使ってモデルを定義します。 各フィールドには型が必要です。 from datetime import datetime from typing i
Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基
Pythonスキーマバリデーションライブラリ比較 (pydantic, marshmallow, attrs, cerberus) ウェブ API の作成など、外部からやってくるデータを安全に捌く上で、スキーマ定義とバリデーションは非常に重要です。 また、特に Python のような動的型付け言語において、内部でもレイヤをまたぐ場合はきちんと定義されたデータモデルを利用することで、知らない間にデータモデルが変わっていた、というようなケースを防ぐことができます。 Python には標準でスキーマバリデーションライブラリがないため 3rd パーティのものを使うことになりますが、様々なライブラリがあるので比較してみました。 比較対象のライブラリ概要※Python バージョンは 3.9.0 を利用します。 lib versionGithub Star (202
bq_sushi #17 にて、「Data Management by dbt」という発表をしました。
AuthorsTwitter@__Attsun__Published onWednesday, February 10, 2021 最近、業務で DWH / Datamart の整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところ dbt と Dataform がツールとして有力そうだったので、比較してみました。 TL;DRdbt は機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。Dataform は Web ビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbt に比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じるので、どちらが良いかは要求や組織の置かれた状況次第でしょう。私の所属する会社 (Ubie,
TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか?選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ
Pythonスキーマバリデーションライブラリ比較 (pydantic, marshmallow, attrs, cerberus) ウェブAPIの作成など、外部からやってくるデータを安全に捌く上で、スキーマ定義とバリデーションは非常に重要です。 また、特にPythonのような動的型付け言語において、内部でもレイヤをまたぐ場合はきちんと定義されたデータモデルを利用することで、知らない間にデータモデルが変わっていた、というようなケースを防ぐことができます。 Pythonには標準でスキーマバリデーションライブラリがないため3rdパーティのものを使うことになりますが、様々なライブラリがあるので比較してみました。 比較対象のライブラリ概要※Pythonバージョンは3.9.0を利用します。 lib versionGithub Star (2020/1/5)memo
このページを最初にブックマークしてみませんか?
『attsun1031.github.io』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く