本記事はAWS re:Invent 2018のSession「ANT398 - [NEW LAUNCH!] Introducing Amazon Managed Streaming for Kafka (Amazon MSK)」のレポートです。 re:Invent 中に発表された Apache Kafka のフルマネージドサービス「Amazon Managed Streaming for Kafka (Amazon MSK)」の入門セッションです。 セッションについて スピーカー Damian Wylie - Principal Product Manager 概要 Discover the power of running Apache Kafka on a fully managed AWS service. In this session, we describe how Amazo
Amazon Web Services ブログ Apache Spark を実行しているAmazon Kinesis Data Firehose と Amazon EMR によるダウンストリームデータ処理の最適化 増え続けるデータを処理し、新しいデータソースを取り込むことは、多くの組織にとって大きな課題となっています。 多くの場合、AWS のお客様は接続中のさまざまなデバイスやセンサーからメッセージを受け取っていますが、それらを詳しく分析する前に、効率的に取り込み、処理する必要があります。 結果として、あらゆる種類のデータが行き着くソリューションが Amazon S3 となるのは当然と言えるでしょう。 ただし、データが Amazon S3 に格納される方法によって、ダウンストリームデータ処理の効率とコストに大きな違いが生じる可能性があります。 具体的に言うと、Apache Spar
はじめに 今後はストリーム処理の時代がくるはずです。たぶん。そんな気がします。 というわけで、適当なデータ発生を発生させて、Kinesis Streams+Spark streamingでストリーム処理を体験してみました。 Spark 2.0.0 (EMRを利用) Kinesis Streamsとは 昔は単にKinesisと呼ばれていましたが、後からKinesis FirehoseとKinesis Analyticsが追加されたため、Kinesis3兄弟のうちの1人と呼ばれています。 大規模でスケール可能で、メッセージが一定時間保存されるPubSub型キューのことを指します。 つまり、データを発生させるProducer相当と、後段の処理であるConsumer相当を作成する必要があります。 Spark Streamingとは 大規模データ分散処理フレームワークのApache sparkのライ
Digdag is a simple tool that helps you to build, run, schedule, and monitor complex pipelines of tasks. It handles dependency resolution so that tasks run in series or in parallel. Digdag replaces cron, facilitates IT operations automation, orchestrates data engineering tasks, coordinates machine learning pipelines, and more.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く