タグ

2020年10月10日のブックマーク (5件)

  • Apache Beam (Dataflow) 実践入門【Python】 - Qiita

    はじめに この記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline:処理タスク全体(パイプライン)をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection:分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ

    Apache Beam (Dataflow) 実践入門【Python】 - Qiita
    karahiyo
    karahiyo 2020/10/10
  • Create Your Pipeline

    Create Your PipelineYour Beam program expresses a data processing pipeline, from start to finish. This section explains the mechanics of using the classes in the Beam SDKs to build a pipeline. To construct a pipeline using the classes in the Beam SDKs, your program will need to perform the following general steps: Create a Pipeline object.Use a Read or Create transform to create one or more PColle

    karahiyo
    karahiyo 2020/10/10
  • Apache Beam のプログラミング モデル  |  Cloud Dataflow  |  Google Cloud

    フィードバックを送信 Apache Beam のプログラミング モデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 Dataflow は、オープンソースの Apache Beam プロジェクトをベースにしています。このドキュメントでは、Apache Beam プログラミング モデルについて説明します。 概要 Apache Beam は、バッチ パイプラインとストリーミング パイプラインの両方を定義するオープンソースの統合モデルです。Apache Beam プログラミング モデルは、大規模なデータ処理の構造を単純化します。Apache Beam SDK の 1 つを使用して、パイプラインを定義するプログラムを構築します。次に、Dataflow などの特定のプラットフォームでパイプラインを実行します。このモデルのおかげで、並列処理のオーケストレーション管理

    Apache Beam のプログラミング モデル  |  Cloud Dataflow  |  Google Cloud
    karahiyo
    karahiyo 2020/10/10
  • 3分でわかるマテリアライズド・ビュー -使い所と問題点を考える- - Qiita

    想定読者 マテリアライズド・ビューという言葉を聞いたことはあるがその意味や仕組みを知らない方 集計処理を実現する一つの手段としてマテリアライズド・ビューを検討している方 マテリアライズド・ビューの実装にあたり必要な知識・注意点を把握したい方 前提 以降の記載は以下のDBMSの使用を前提としています。 Oracle Database 10g, 11g, 12c 集計処理という敵とマテリアライズド・ビューという武器 システム開発を進める中で、何らかの集計処理が必要になることが多々あると思います。 例えば、売上高の集計処理(地域ごと・店舗ごと・期間ごとなど)や、特定の条件を満たす顧客の集計処理(商品名◯×を購入した顧客の合計数など)などです。 SQLで集計処理を実装すればよいのですが、実際に実装してみると以下のような問題が生じることがあります。 集計処理が遅い(複数テーブルの結合などに起因する処

    3分でわかるマテリアライズド・ビュー -使い所と問題点を考える- - Qiita
    karahiyo
    karahiyo 2020/10/10
  • なぜ Apache Beam なのか : Dataflow のライバル参入を促す理由

    Google Cloud Platform (Google App Engine, Compute Engine, BigQuery や Container Engine など)の情報の日公式ブログ

    なぜ Apache Beam なのか : Dataflow のライバル参入を促す理由
    karahiyo
    karahiyo 2020/10/10