Google Cloud は 2023 Forrester Wave: Streaming Data Platforms でリーダーに選出されました。
Learning ResourcesWelcome to our learning resources. This page contains a collection of resources that will help you to get started and use Apache Beam. If you’re just starting, you can view this as a guided tour, otherwise you can jump straight to any section of your interest. If you have additional material that you would like to see here, please let us know at user@beam.apache.org! Getting Star
Apache Beam WordCount ExamplesThe WordCount examples demonstrate how to set up a processing pipeline that can read text, tokenize the text lines into individual words, and perform a frequency count on each of those words. The Beam SDKs contain a series of these four successively more detailed WordCount examples that build on each other. The input text for all the examples is a set of Shakespeare’s
Google GCP(Google版AWS)のDataflowサービスを使ってみました。 Dataflowとは、その名の通り、膨大なデータをGoogleご自慢の分散環境を使用して並列で爆速処理してくれる、ビッグクエリーと同じGCPのマネージドサービスの1つです。 使用できるオフィシャルなプログラミング言語は、JavaとPythonのみですが、 Spotifyから、ScioというScalaのライブラリが提供されていますので今回使用してみました。 Dataflowでは、パイプラインを作成し、入力、変換1、変換2...変換N、出力の3ステップで構成します。関数型言語のScalaは、変換ロジックをラムダ式でコンパクトに記述できるため、Javaよりもコード量が少なくて済みます。 Spotifyでは、KafkaからDataflowへ移行する際に、Scalaで記述できるようにScioライブラリを開発した
TL;DR 前任者が闇の魔法使いだったという話 Workflow Engine は混ぜるな危険 ポエムなのでコードとかない 出てくる言葉については語らないのでいくらか前提知識が必要 Prologue 「ハリー・ポッターと賢者の石」でハリー・ポッター、ロン・ウィーズリー、ハーマイオニー・グレンジャーの三人はそれぞれが役割を分担してパスを繋ぎ賢者の石へと辿り着いていました。 Workflow Engine と呼ばれるようなものはようはそういう風にタスクで処理を独立させつつ順序に従って処理するための仕組みですね。 例えば YAML ベースの Digdag とか、 Python で記述する Luigi とか、Java や Python で Cloud Dataflow (Apache Beam) とか色々あります。 私は最近 これ を使ってログを分析して賢者の石に辿り着くためのデータ分析基盤の担当
Introducing Apache BeamThe Unified Apache Beam ModelThe easiest way to do batch and streaming data processing. Write once, run anywhere data processing for mission-critical production workloads. Link to GitHub Repo Introducing Apache BeamThe Unified Apache Beam ModelThe easiest way to do batch and streaming data processing. Write once, run anywhere data processing for mission-critical production w
Apache Beam Programming GuideThe Beam Programming Guide is intended for Beam users who want to use the Beam SDKs to create data processing pipelines. It provides guidance for using the Beam SDK classes to build and test your pipeline. The programming guide is not intended as an exhaustive reference, but as a language-agnostic, high-level guide to programmatically building your Beam pipeline. As th
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く