Google GCP(Google版AWS)のDataflowサービスを使ってみました。 Dataflowとは、その名の通り、膨大なデータをGoogleご自慢の分散環境を使用して並列で爆速処理してくれる、ビッグクエリーと同じGCPのマネージドサービスの1つです。 使用できるオフィシャルなプログラミング言語は、JavaとPythonのみですが、 Spotifyから、ScioというScalaのライブラリが提供されていますので今回使用してみました。 Dataflowでは、パイプラインを作成し、入力、変換1、変換2...変換N、出力の3ステップで構成します。関数型言語のScalaは、変換ロジックをラムダ式でコンパクトに記述できるため、Javaよりもコード量が少なくて済みます。 Spotifyでは、KafkaからDataflowへ移行する際に、Scalaで記述できるようにScioライブラリを開発した
TL;DR 前任者が闇の魔法使いだったという話 Workflow Engine は混ぜるな危険 ポエムなのでコードとかない 出てくる言葉については語らないのでいくらか前提知識が必要 Prologue 「ハリー・ポッターと賢者の石」でハリー・ポッター、ロン・ウィーズリー、ハーマイオニー・グレンジャーの三人はそれぞれが役割を分担してパスを繋ぎ賢者の石へと辿り着いていました。 Workflow Engine と呼ばれるようなものはようはそういう風にタスクで処理を独立させつつ順序に従って処理するための仕組みですね。 例えば YAML ベースの Digdag とか、 Python で記述する Luigi とか、Java や Python で Cloud Dataflow (Apache Beam) とか色々あります。 私は最近 これ を使ってログを分析して賢者の石に辿り着くためのデータ分析基盤の担当
By DAVID ADAMS Since inception, this blog has defined “data science” as inference derived from data too big to fit on a single computer. Thus the ability to manipulate big data is essential to our notion of data science. While MapReduce remains a fundamental tool, many interesting analyses require more than it can offer. For instance, the well-known Mantel-Haenszel estimator cannot be implemented
Send feedback Google-provided templates Stay organized with collections Save and categorize content based on your preferences. Google provides open source Dataflow templates that you can use instead of writing pipeline code. This page lists the available templates. Container images for these templates are hosted at gcr.io/dataflow-templates. For general information about templates, see the Overvie
フィードバックを送信 Dataflow の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 Dataflow は、統合されたストリーム データ処理とバッチデータ処理を大規模に提供する Google Cloud サービスです。Dataflow を使用して、1 つ以上のソースからデータを読み取り、変換し、宛先に書き込むデータ パイプラインを作成します。 Dataflow の一般的なユースケースは次のとおりです。 データの移動: サブシステム間でのデータの取り込みまたはレプリケーション。 BigQuery などのデータ ウェアハウスにデータを取り込む ETL(抽出、変換、読み込み)ワークフロー。 ビジネス インテリジェンス(BI)ダッシュボードのバックエンド サポート ストリーミング データのリアルタイムの ML 分析。 センサーデータ処理またはログデータ処
Dataflow は、さまざまなデータ処理パターンの実行に対応したマネージド サービスです。このサイトのドキュメントでは、Dataflow を使用してバッチおよびストリーミングのデータ処理パイプラインをデプロイする方法とサービス機能の使用方法を説明します。 Apache Beam SDK は、バッチとストリーミングの両方のパイプラインの開発に対応したオープンソースのプログラミング モデルです。Apache Beam プログラムでパイプラインを作成し、Dataflow サービスで実行します。Apache Beam のドキュメントには、詳細なコンセプト情報と Apache Beam のプログラミング モデル、SDK、他のランナーのリファレンス情報が記載されています。 Apache Beam の基本コンセプトについては、Beam のツアーと Beam Playground をご覧ください。また、
フィードバックを送信 Google 提供のテンプレート コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 Google では、パイプライン コードを記述する代わりに使用できるオープンソースの Dataflow テンプレートを提供しています。このページには、利用可能なテンプレートが一覧表示されます。これらのテンプレートのコンテナ イメージは gcr.io/dataflow-templates でホストされています。 テンプレートに関する一般的な情報については、概要をご覧ください。 まず、サンプル テンプレートの WordCount を実行します。 独自のテンプレートを作成するには、テンプレートを拡張する方法をご覧ください。 ストリーミング テンプレート データを継続的に処理するためのテンプレート Apache Kafka to Apache Kafka Apa
Send feedback Examples for the Apache Beam SDKs Stay organized with collections Save and categorize content based on your preferences. On the Apache Beam website, you can find documentation for the following examples: WordCount Walkthrough: a series of four successively more detailed examples that build on each other and present various SDK concepts. Mobile Gaming Examples: examples that demonstra
フィードバックを送信 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 Python を使用して Dataflow パイプラインを作成する このドキュメントでは、Apache Beam SDK for Python を使用して、パイプラインを定義するプログラムをビルドします。次に、直接ローカル ランナーまたはクラウドベースのランナー(Dataflow など)を使用してパイプラインを実行します。WordCount パイプラインの概要については、Apache Beam で WordCount を使用する方法の動画をご覧ください。 このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。 ガイドを表示 始める前に Sign in to your Google Cloud Platfo
Send feedback Stay organized with collections Save and categorize content based on your preferences. Create a Dataflow pipeline using Python This document shows you how to use the Apache Beam SDK for Python to build a program that defines a pipeline. Then, you run the pipeline by using a direct local runner or a cloud-based runner such as Dataflow. For an introduction to the WordCount pipeline, se
Apache Beam Programming GuideThe Beam Programming Guide is intended for Beam users who want to use the Beam SDKs to create data processing pipelines. It provides guidance for using the Beam SDK classes to build and test your pipeline. The programming guide is not intended as an exhaustive reference, but as a language-agnostic, high-level guide to programmatically building your Beam pipeline. As th
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く