はじめに Spark, SQL on Hadoop etc. Advent Calendar 2014 15日目です。 3日目の記事でもSpark Streamingは紹介されていましたが、私のほうではより初心者向けの基本的な内容を記述しておきたいと思います。 Spark Streamingとは リアルタイムログ検索エンジンを考えてみる 実装してみる Spark Streamingとは Apache Sparkはインメモリで動作する柔軟なバッチエンジンです。 Spark Streamingはストリームで流れてくるデータに対してApache Sparkで書いたバッチが動作するものです。 誤解を恐れずにいうとSpark Streamingは主に以下の3つの機能を提供しています。 各種ストリームデータを取得するためのコネクタ(Receiver)を提供する ストリームデータをSparkのRDDのよ