はじめに 今後はストリーム処理の時代がくるはずです。たぶん。そんな気がします。 というわけで、適当なデータ発生を発生させて、Kinesis Streams+Spark streamingでストリーム処理を体験してみました。 Spark 2.0.0 (EMRを利用) Kinesis Streamsとは 昔は単にKinesisと呼ばれていましたが、後からKinesis FirehoseとKinesis Analyticsが追加されたため、Kinesis3兄弟のうちの1人と呼ばれています。 大規模でスケール可能で、メッセージが一定時間保存されるPubSub型キューのことを指します。 つまり、データを発生させるProducer相当と、後段の処理であるConsumer相当を作成する必要があります。 Spark Streamingとは 大規模データ分散処理フレームワークのApache sparkのライ