一、背景 背景:AdobeAnalyticsのデータをBigqueryに蓄積して活用しようということで、1時間分のCSVデータをZipfiles形式で1時間ごとGoogleCloudStorageに転送されていて、その後Bigqueryにテーブルとして集約します。 元々はDataproc上のSparkJobで処理しているですが、コスパを考えてDataflowへの移行を決まりました。 実行するための権限周りについてはGoogleの公式ドキュメントまでご参照いただければ幸いです。 二、アーキテクチャ 今回のアーキテクチャは下記のようになります。 GCS上に格納されるZIPファイルをトリガーとして、CloudFuntionsを起動し、その後Dataflowに送信してflexTemplatesのJobを実行し、CSVデータをBigqueryのテーブルにアウトプットします。 三、ApacheBeam