[B! streamprocessing] kimutanskのブックマーク

Building Reliable Reprocessing and Dead Letter Queues with Kafka

EngineeringBuilding Reliable Reprocessing and Dead Letter Queues with Apache KafkaFebruary 16, 2018 / Global In distributed systems, retries are inevitable. From network errors to replication issues and even outages in downstream dependencies, services operating at a massive scale must be prepared to encounter, identify, and handle failure as gracefully as possible. Given the scope and pace at whi

kimutansk 2018/02/17

単にDeadLetterQueueを設けるだけでなく、段階的にRetry用キューを遷移していって、キュー単位で遅延などを設定可能＆状況可視化容易、あと開発工数削減などの視点は面白いですね。

StreamProcessing

リンク

Apache Flinkを試してみての感想 - Tech Notes

しばらくApache Flinkを試してみたので、感想を書いておこうと思う. 試したこと standalone modeでのクラスタ構築ストリーミングジョブを書いてみる TumblingTimeWindowやSlidingTimeWindowでの集計 Kafka SourceとElasticsearch Sinkの利用必要だったので、カスタムトリガは書いた幾つかのジョブで性能測定社内の本番fluentdからKafka経由でFlinkにストリームを投入し、ジョブを十数日くらい連続稼働してみる state backendをHDFSやRocksDBにしてみる JobManager HA TaskManagerやJobManagerを落としてみる Flink on YARN (ジョブを起動してみただけ) 試してないこと DataSet APIの利用 savepoint, savepoint

kimutansk 2016/06/02

大御所が背後にいないのはその通りですが、企業としてdata Artisansがついているのは確かですので・・どう来ますかね？

リンク

Apache Flinkを試している - Tech Notes

耐障害性と拡張性のあるストリーム処理基盤が欲しい、と思ってApache Flinkを調べている. 今はリアルタイム集計にNorikraを使っていて、これはとてもカジュアルに使えて良いのだけど、以下の様なケースだと難しい。比較的止めたくない処理で、サーバ障害時にも自動的に回復して欲しい 1日とか長いtime windowの集計をしているので、途中でサーバが落ちて集計中の状態が失われると辛いトラフィックが増えてきて、複数サーバに負荷を分散したい例えばストリームに含まれているIDに対応する値を外部のテーブルから取ってくるような、ちょっと複雑な処理をしたい Flinkとはどのようなソフトウェアか一言で言うと、対障害性と拡張性を備えた、分散ストリーム処理基盤。バッチ処理もストリーム処理の仕組みでできるよね、ということでバッチ用、ストリーム用両方のAPIが提供されている。実行環境としては、Ha

kimutansk 2016/06/02

オペレータの状態を容易に保存する機構を保持しているのがやはりStormやSpark Streamingとの違いですか。

リンク

リアルタイムとバッチの違い - kuenishi's blog

昨日、分散DB 本読書会のあとに品川のラーメン屋でリアルタイムとは何ぞや〜みたいな話になった。自分の思いついたポエムをここに書いておこう。現場の問題とはあまり関係がない。 Stream Data Processing: A Quality of Service Perspective (Advances in Database Systems)という本によれば、DSMS (Data Steram Management System) とDBMS (Database Management System)の違いは、クエリを発行するデータ集合の性質にある。つまり、DBMSは今ある有限のデータに対して操作を行うための仕組みで、DSMSはこれからやってくる無限のデータに対して操作を行うための仕組みと定義されていた。このDSMSというやつは、古式ゆかしいストリーム処理システムのことで、まあいわゆるCEP

kimutansk 2015/06/16

「ストリーム処理はデータは非永続的、クエリが永続的、先に決まってなければならない」は実際その通りな構成。リアルタイムはリアルタイムOSと混同するので個人的には使いたくない質ですが

StreamProcessing

リンク

MillWheel: Fault-Tolerant Stream Processing at Internet Scale

Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

kimutansk 2014/06/29

耐障害性を保持したストリーム処理基盤、MillWheelについての論文、と。今度読んでみますか。

リンク

Streaming Distributed Data Processing with Silk #deim2014

Silk is a framework for building and running complex workflows of distributed data processing. It allows describing dataflows in Scala in a type safe and concise syntax. Silk translates Scala programs into logical plans and schedules the distributed execution through various "weavers" like an in-memory weaver or Hadoop weaver. It performs static and run-time optimizations of dataflows and supports

kimutansk 2014/03/03

Spark & Spark Streamingと似ていると思いましたが、資料中でも触れられていました。Scala製ですし。ただ、こちらの方がシンプルな構成で動作しそうには見えますが・・さて

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

streamprocessingに関するkimutanskのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス