toshikishのブックマーク - はてなブックマーク

現実の CSV ファイルのデータを BigQuery に load する仕組みを作るという泥臭い作業を dlt でやってみる
インストールされたバージョンを確認。 $ dlt --version dlt 0.3.25 また、gsfs, pandas, streamlit, google-cloud-bigquery-storage も必要になるのでインストールしておく。 2. pipeline project を作成#次のコマンドで pipeline project を用意する。これは verified source として Filesystem、destination として DuckDB を指定して pipeline project を作るという意味。 Filesystem はローカルのファイルシステムや S3, GCS のようなクラウドストレージからファイルを読むことが可能。このコマンドが成功すると次のようなディレクトリ構造が作られる。 . ├── .dlt │ ├── .sources │ ├── c
toshikish 2024/01/29
リンク
Data Contract について調べた
データエンジニアリングの領域で少し前から目にするようになった “data contract” という言葉。なんとなく今の業務で困っている課題の解決になりそうな気がしつつもよくわかっていなかったので調べてみた。 data contract について語られているいくつかのブログ記事などを参考にしている。 Data Contract とは#データの schema というのはナマモノで、いろいろな理由で変更されることがある。 schema を変更する場合、その schema のデータ (table や log) が所属する単一のビジネス機能や application のドメインで行われることになる。そのドメインの閉じた世界で考える分にはこれで問題ないのだが、DWH や data lake など組織レベルのデータ基盤でデータを流通していた場合はその先のことも考えないといけなくなる。このようにチ
toshikish 2023/04/09
リンク
1

はてなブックマーク

タグ

ブックマーク / soonraah.github.io (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / soonraah.github.io (2)

現実の CSV ファイルのデータを BigQuery に load する仕組みを作るという泥臭い作業を dlt でやってみる

Data Contract について調べた

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス