PipelineDBアドベントカレンダー一日目ということで、多分知らない方が多いこのストリーム処理DBについて、概略の紹介をします。 ちなみに自分はまだPipelineDBをプロダクションで使っているわけではなく、AdventCalendarの投稿はプロダクション投入に向けての調査の意味合いが強いです。 そもそもストリーム処理がなぜ必要か 昨今のWebシステムで生成されるイベントデータやログデータといったものはfluentdなどのログコレクタの発展に伴い様々なデータストアに保存され利用されるようになってきました。 そのサイズは、場合によっては日に数億行という事例も多いですがそうしたデータの利用においては、データを抽出し整形し、DBに導入するだけでもある程度のコスト・時間が必要になってきます。 そうした事例の解決にはHadoop系のプロダクトやRedshiftやBigQueryなどのカラムナ