タグ

2021年6月1日のブックマーク (1件)

  • 最近の砂場活動その24: Embulkでのデータ転送を差分転送にする - yasuhisa's blog

    差分転送するモチベーション 機械学習を使った情報推薦を行なうために、RDSのテーブルをBigQueryに定期転送しています。細かいことは気にしたくなかったので、一日一回の洗い替え(全データ送信で全部上書き)していましたが、もう少し鮮度を上げたくなりました(新しい情報に対して推薦ができないため)。何も考えずに定期転送の頻度を上げると 1: 転送のためのCPUコスト 2: AWSからGCPへのデータ転送量 が気になってきます。個人の趣味プロジェクトでは、特に2が大きい。先月のAWSの利用料金を見て、涙を流していました...。というわけで、情報の鮮度は上げつつもう少し効率的に定期転送するべく、Embulkでの差分転送をすることにしました。 やり方 差分だけBigQueryに転送する 基的にはメルカリメソッドそのままです。いつもお世話になっております。 updated_atのような最終更新日時が

    最近の砂場活動その24: Embulkでのデータ転送を差分転送にする - yasuhisa's blog
    sh19910711
    sh19910711 2021/06/01
    BigQueryのQUALIFY句って単体で利用できないのか