Google GCP(Google版AWS)のDataflowサービスを使ってみました。 Dataflowとは、その名の通り、膨大なデータをGoogleご自慢の分散環境を使用して並列で爆速処理してくれる、ビッグクエリーと同じGCPのマネージドサービスの1つです。 使用できるオフィシャルなプログラミング言語は、JavaとPythonのみですが、 Spotifyから、ScioというScalaのライブラリが提供されていますので今回使用してみました。 Dataflowでは、パイプラインを作成し、入力、変換1、変換2...変換N、出力の3ステップで構成します。関数型言語のScalaは、変換ロジックをラムダ式でコンパクトに記述できるため、Javaよりもコード量が少なくて済みます。 Spotifyでは、KafkaからDataflowへ移行する際に、Scalaで記述できるようにScioライブラリを開発した