Cloud Composer(Airflow)からDataflowTemplateOperatorの使い方がわからなかったので調べました。 Dataflowテンプレート登録 コード作成 コンパイル+アップロード Cloud ComposerのDAG作成 DAG定義スクリプト作成 AirflowのVariables設定 DAGファイルのインポート 参考URL Dataflowテンプレート登録 DataflowTemplateOperatorは名前の如くDataflowのテンプレートという、ジョブの実行情報の定義体みたいなものを指定してジョブを実行します。 以下の公式ドキュメントを参考にDataflowのテンプレートを作成し、GCSにアップします。 https://cloud.google.com/dataflow/docs/guides/templates/creating-template
ちょっとGCPを触る機会があったので、そのメモです。 結構よくあるケースだから記事がなかったのか、 自分のスキルが雑魚なのか。 あまり日本語の記事もなかったので、きっといつか誰かの役に立つはず。 クエリとかは実際からはシンプルに修正してます。 やったこと GCSからデータを取得してちょっと加工する 加工したデータをBigQueryにアップロードする GCSのデータをアーカイブする BigQueryからSQLでデータを取得 BigQueryの別のテーブルにロードする 実行環境 PC:MacBook Pro OS:Mac OS High Sierra 言語:Python2.7 フレームワーク:Apache Beam SDK 環境セットアップ セットアップとか、サンプルの実行は こちらを参考にしました。 メイン処理と引数 parserで引数を設定します。 PipelineOptionsを生成して
データとML周辺エンジニアリングを考える会#2の発表資料です。 https://data-engineering.connpass.com/event/136756/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く