はじめに Apache Sparkの用途の一つとして、ストリーミング処理があります。今回はその例として、Twitterから直近の人気のハッシュタグを取得する処理を取り上げてみたいと思います。 処理の流れと用語について ソースをお見せする前に、大まかな処理の流れと、用語について説明したいと思います。先ず処理の流れですが、以下のようになります。 Streamの作成 ハッシュタグを持つRDDの取得 DStreamの取得 DStream内のRDDよりハッシュタグを取得 見慣れない用語ばかりかと思いますが、以下で処理の流れに沿って解説したと思います。 1.Streamの作成 データを連続して取得するためのStreamを作成する処理です。今回はTwitterよりデータを取得するストリームを作りますが、他にも Kinesis、Kafka、Flume、ZeroMQ、TCPなどから取得することが出来るようで
![[Apache Spark]ストリーミング処理で直近の人気ハッシュタグを取得する | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/976e6989ab538c58fa5b64a03837c916f8d9ba11/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2014%2F05%2FApache_Spark.png)