概要 Spark Streamingは、流れてくるデータ(ストリーム)を処理する機能。 次々に流れてくるデータを(短い間隔で)繰り返しバッチ処理する。 大抵は結果をファイルシステム上に格納する。バッチ処理の都度書き込まれるので、ファイルが増えていくことになる。 短い間隔でバッチ処理を行う形なので、高スループット(単位時間当たりの処理能力が高い)であるが、レスポンス(応答時間)は遅くなる。 Spark Streamingを扱う場合、StreamingContextクラスを使う。 入力データはDStream(discretized stream、離散ストリーム)というクラスで扱う。 DStreamはRDDではないが、RDDと似たメソッドを持っている。(それらのメソッドを使って処理を記述することを「バッチ処理」と呼んでいるように思う) import org.apache.spark.stream