Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。 ストリーミング処理の概要 ストリーミング処理とは バッチ処理との違い ストリーミング処理の課題 データ量と変動性 遅延データの扱い 異なるプログラミングモデル Dataflowでどのように解決すのか オートスケール 遅延データの制御 プログラミングモデルの統一 遅延データの制御 (機能詳細) ウィンドウとは 固定ウィンドウ スライディングウィンドウ セッションウィンドウ ウォーターマークとは トリガーとは アキュミュレーションとは 破棄モード 累積モード 累積 & 後退モード Dataflowでストリーミング処理の基盤作成で考慮すること 何を計算するか?(ETL) イベント時間のどこを対象にするか?(ウィンドウ) 処理時間のどの時点を対象にするか?(ウォータ