こんにちは。 Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。 とりあえず、そんなわけで(?)お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。 まず見てみた資料は「Overview of Spark Streaming」(http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf)です。 というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か? 大規模ストリーム処理フレームワーク ・100オーダーのノードにスケールする ・秒単位のレイテンシで処理を実行可能 ・Sparkのバッチ