こんにちは Kouです。 Webアクセス解析や、ログのリアルタイムモニタリングと不正検知、ソーシャルメディア分析などの時に、オープンソースの分散ストリーミングプラットフォームと呼ばれるApache KafkaとSparkにストリームデータを処理するSpark Streamingを組み合わせたストリームデータ処理システムはよく利用されると考えられます。今回の記事はTwitterのメッセージ分析を例として、Alibaba CloudのE-MapReduce上で、KafkaとSpark Streamingの統合方法について、皆さんにご紹介させて頂きたいと思います。 検証環境について Spark Streaming EMR-3.20.0 クラスタータイプは Hadoop ハードウェア構成(Header)はecs.sn2.largeを1台 ハードウェア構成(Worker)はecs.sn2.large