その対処で全部に対応するのは無理なんじゃないの? Watermark、Trigger、Accumulationの機構が導入されればストリーム処理は全て対応可能かというと、 そんなことはありません。 何故なら、下記のような問題が発生してくるからです。 Watermarkを実時刻からどれくらい遅らせて設定すればいいのか? 遅れを大きくすれば正確性は増しますが、遅延時間は大きくなります。 Accumulationのためにウィンドウの集計結果をどれだけ保持すればいいのか? 保持する時間が長いほど、ストリーム処理を行うシステムのリソースが必要となります。 データ処理システム(バッチ、ストリーム含む)には下記の3要素のトレードオフがあるとされています。 完全性(Completeness) 低遅延(Low Latency) 低コスト(Low Cost) この3要素を全てに満たすことは出来ず、全てのデータ
The what, where, when, and how of unbounded data processing. Introduction Welcome back! If you missed my previous post, The world beyond batch: Streaming 101, I strongly recommend you take the time to read that one first. It lays the necessary foundation for the topics I’ll be covering in this post, and I’ll be assuming you’re already familiar with the terminology and notions introduced there. Cav
Join the O'Reilly online learning platform. Get a free trial today and find answers on the fly, or master something new and useful. Learn more As someone who’s worked on massive-scale streaming systems at Google for the last five+ years (MillWheel, Cloud Dataflow), I’m delighted by this streaming zeitgeist, to say the least. I’m also interested in making sure that folks understand everything that
A stream processing application built with Kafka Streams looks like this: Despite being a humble library, Kafka Streams directly addresses a lot of the hard problems in stream processing: Event-at-a-time processing (not microbatch) with millisecond latency Stateful processing including distributed joins and aggregations A convenient DSL Windowing with out-of-order data using a DataFlow-like model
Kafkaでストリーム処理を書けるようになった 2016/06 時点の最新リリース v0.10 から、Kafkaにストリーム処理のアプリケーションを書くためのライブラリが入った。Kafka本体に同梱されているので追加で何かをインストールする必要はない。このライブラリを使うと、 「KafkaのトピックAにデータが入ってきたら、即座ににそれを処理して別のトピックBに格納する」 というアプリケーションを簡単に作ることができる。なお、Kafkaに同梱されているからといって、Kafka本体、すなわちブローカー側に何か特殊な仕掛けが導入されたわけではない。Kafka Streamは単なるKafkaのクライアントアプリである。別の言い方をすると、Samza とか SparkStreaming とかでできることを、Kafka 本体だけでもできるようになったということができる。 Kafka Streams
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog saegusa2017-04-16Yoshihiro was a network engineer at LINE, responsible for all levels of LINE's infrastructure. Since being named Infra Platform Department manager, he is finding ways to apply LINE's technology and business goals to the platform. こんにちは。LINEでネットワークやデータセンターを担当している三枝です。2017年1月にJANOG39で登壇する機会を頂きましたので、今回
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く