タグ

2020年10月11日のブックマーク (5件)

  • BigQuery の Partitioned Table 調査記録 - Qiita

    embulk-output-bigquery の Partitioned Table 対応で調べてたので、その時に調べたものを雑にまとめておく。APIを直接叩いて実装しているので、bq コマンドでの使い方については調べていない。 EDIT: 現在は DATE もしくは TIMESTAMP カラムを指定した partitioning が可能ですが、ドキュメント記載時にはまだ BigQuery がサポートしていなかったため、その記述が抜けています。 TL; DR 基的に tableId に partition decorator ($YYYYMMDD) を指定して操作する DAYパーティションしか(今のところ)切れない。 特定パーティションのデータを置き換えたい場合は、パーティションを指定して、writeDisposition: 'WRITE_TRUNCATE'として load (または

    BigQuery の Partitioned Table 調査記録 - Qiita
    karahiyo
    karahiyo 2020/10/11
  • Apache Beam®

    Introducing Apache BeamThe Unified Apache Beam ModelThe easiest way to do batch and streaming data processing. Write once, run anywhere data processing for mission-critical production workloads. Link to GitHub Repo Introducing Apache BeamThe Unified Apache Beam ModelThe easiest way to do batch and streaming data processing. Write once, run anywhere data processing for mission-critical production w

    karahiyo
    karahiyo 2020/10/11
  • Apache Beam (Dataflow) 実践入門【Python】 - Qiita

    はじめに この記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline:処理タスク全体(パイプライン)をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection:分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ

    Apache Beam (Dataflow) 実践入門【Python】 - Qiita
    karahiyo
    karahiyo 2020/10/11
    サンプルコードと"パイプラインの中で何が起きているのか"解説と良記事だった
  • Pipenv: Python Dev Workflow for Humans — pipenv 2023.11.16.dev0 documentation

    Pipenv: Python Dev Workflow for Humans¶ Pipenv is a Python virtualenv management tool that supports a multitude of systems and nicely bridges the gaps between pip, python (using system python, pyenv or asdf) and virtualenv. Linux, macOS, and Windows are all first-class citizens in pipenv. Pipenv automatically creates and manages a virtualenv for your projects, as well as adds/removes packages from

    karahiyo
    karahiyo 2020/10/11
  • google cloud dataflowでs3からJSONファイルを読んでBigQueryテーブルへ出力してみた - Qiita

    AWSのS3にあるJsonファイルを読んで、GCPのBigQueryへ出力するサンプルを書いてみました。 つまり、AWSの世界からDataflowを使ってGCPの世界へデータ変換をしつつ転送するやり方です。 まだまだ情報が出回っていないapacheBeamですので、世のため人のため自分のために、頑張って書いてみたいと思います。 なお、記事の対象環境は「Java8版のBeam2.6.0」です。 ビルドツールはmavenを利用しています。 beam2.3.0からS3のサポートが開始 今年2018年2月にbeam2.3.0がリリースされ、そのバージョンからS3の入出力がサポートされました。 それ以前でも、カスタムソースやカスタムシンクと呼ばれる、いわば「ユーザ実装の仕組み」によりユーザの責任でS3の入出力処理を個別実装すれば対応可能ではありました。 しかし2018年現在は、ユーザ実装不要でS3

    google cloud dataflowでs3からJSONファイルを読んでBigQueryテーブルへ出力してみた - Qiita
    karahiyo
    karahiyo 2020/10/11