エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
データ品質保証ツールとしてのDuckDB
タイミーでは、データウェアハウスとしてBigQueryを採用し、あらゆるデータを集約・統合することでデー... タイミーでは、データウェアハウスとしてBigQueryを採用し、あらゆるデータを集約・統合することでデータ活用を推進しています。 データのユースケースによっては高い品質が求められるため、重複や欠損がないかなど、様々な観点からデータ品質テストを実施し、その保証に努めています。 特に、S3に保存されたParquetファイルをBigQueryへロードする際には、データが1行も欠損することなく完全に転送されることを保証する必要がありました。 これを実現するために S3上のParquetファイルとBigQueryテーブルのデータを突き合わせ、完全性を検証するデータテスト(完全性のテスト)で DuckDB を採用しました。 ツール導入前の課題DuckDB 導入前のデータ完全性テストでは、転送前後のデータ比較において、計算コストの観点から統計量を比較する手法を主に採用していました。 この方法は全レコード