Amazon Web Services ブログ Apache Spark を実行しているAmazon Kinesis Data Firehose と Amazon EMR によるダウンストリームデータ処理の最適化 増え続けるデータを処理し、新しいデータソースを取り込むことは、多くの組織にとって大きな課題となっています。 多くの場合、AWS のお客様は接続中のさまざまなデバイスやセンサーからメッセージを受け取っていますが、それらを詳しく分析する前に、効率的に取り込み、処理する必要があります。 結果として、あらゆる種類のデータが行き着くソリューションが Amazon S3 となるのは当然と言えるでしょう。 ただし、データが Amazon S3 に格納される方法によって、ダウンストリームデータ処理の効率とコストに大きな違いが生じる可能性があります。 具体的に言うと、Apache Spar
はじめに 今後はストリーム処理の時代がくるはずです。たぶん。そんな気がします。 というわけで、適当なデータ発生を発生させて、Kinesis Streams+Spark streamingでストリーム処理を体験してみました。 Spark 2.0.0 (EMRを利用) Kinesis Streamsとは 昔は単にKinesisと呼ばれていましたが、後からKinesis FirehoseとKinesis Analyticsが追加されたため、Kinesis3兄弟のうちの1人と呼ばれています。 大規模でスケール可能で、メッセージが一定時間保存されるPubSub型キューのことを指します。 つまり、データを発生させるProducer相当と、後段の処理であるConsumer相当を作成する必要があります。 Spark Streamingとは 大規模データ分散処理フレームワークのApache sparkのライ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く