karahiyoのブックマーク / 2020年10月11日

karahiyo id:karahiyo

2020年10月11日のブックマーク (5件)

BigQuery の Partitioned Table 調査記録 - Qiita
embulk-output-bigquery の Partitioned Table 対応で調べてたので、その時に調べたものを雑にまとめておく。APIを直接叩いて実装しているので、bq コマンドでの使い方については調べていない。 EDIT: 現在は DATE もしくは TIMESTAMP カラムを指定した partitioning が可能ですが、本ドキュメント記載時にはまだ BigQuery がサポートしていなかったため、その記述が抜けています。 TL; DR 基本的に tableId に partition decorator ($YYYYMMDD) を指定して操作する DAYパーティションしか(今のところ)切れない。特定パーティションのデータを置き換えたい場合は、パーティションを指定して、writeDisposition: 'WRITE_TRUNCATE'として load (または
karahiyo 2020/10/11
リンク
Apache Beam®
Introducing Apache BeamThe Unified Apache Beam ModelThe easiest way to do batch and streaming data processing. Write once, run anywhere data processing for mission-critical production workloads. Link to GitHub Repo Introducing Apache BeamThe Unified Apache Beam ModelThe easiest way to do batch and streaming data processing. Write once, run anywhere data processing for mission-critical production w
karahiyo 2020/10/11
リンク
Apache Beam (Dataflow) 実践入門【Python】 - Qiita
はじめにこの記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基本概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline：処理タスク全体（パイプライン）をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection：分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ
karahiyo 2020/10/11
サンプルコードと"パイプラインの中で何が起きているのか"解説と良記事だった
リンク
Pipenv: Python Dev Workflow for Humans — pipenv 2023.11.16.dev0 documentation
Pipenv: Python Dev Workflow for Humans¶ Pipenv is a Python virtualenv management tool that supports a multitude of systems and nicely bridges the gaps between pip, python (using system python, pyenv or asdf) and virtualenv. Linux, macOS, and Windows are all first-class citizens in pipenv. Pipenv automatically creates and manages a virtualenv for your projects, as well as adds/removes packages from
karahiyo 2020/10/11
リンク
google cloud dataflowでs3からJSONファイルを読んでBigQueryテーブルへ出力してみた - Qiita
AWSのS3にあるJsonファイルを読んで、GCPのBigQueryへ出力するサンプルを書いてみました。つまり、AWSの世界からDataflowを使ってGCPの世界へデータ変換をしつつ転送するやり方です。まだまだ情報が出回っていないapacheBeamですので、世のため人のため自分のために、頑張って書いてみたいと思います。なお、本記事の対象環境は「Java8版のBeam2.6.0」です。ビルドツールはmavenを利用しています。 beam2.3.0からS3のサポートが開始今年2018年2月にbeam2.3.0がリリースされ、そのバージョンからS3の入出力がサポートされました。それ以前でも、カスタムソースやカスタムシンクと呼ばれる、いわば「ユーザ実装の仕組み」によりユーザの責任でS3の入出力処理を個別実装すれば対応可能ではありました。しかし2018年現在は、ユーザ実装不要でS3
karahiyo 2020/10/11
リンク
- 2020年10月12日
- 2020年10月11日
- 2020年10月10日