タグ

streamprocessingに関するkimutanskのブックマーク (6)

  • Building Reliable Reprocessing and Dead Letter Queues with Kafka

    EngineeringBuilding Reliable Reprocessing and Dead Letter Queues with Apache KafkaFebruary 16, 2018 / Global In distributed systems, retries are inevitable. From network errors to replication issues and even outages in downstream dependencies, services operating at a massive scale must be prepared to encounter, identify, and handle failure as gracefully as possible. Given the scope and pace at whi

    Building Reliable Reprocessing and Dead Letter Queues with Kafka
    kimutansk
    kimutansk 2018/02/17
    単にDeadLetterQueueを設けるだけでなく、段階的にRetry用キューを遷移していって、キュー単位で遅延などを設定可能&状況可視化容易、あと開発工数削減などの視点は面白いですね。
  • Apache Flinkを試してみての感想 - Tech Notes

    しばらくApache Flinkを試してみたので、感想を書いておこうと思う. 試したこと standalone modeでのクラスタ構築 ストリーミングジョブを書いてみる TumblingTimeWindowやSlidingTimeWindowでの集計 Kafka SourceとElasticsearch Sinkの利用 必要だったので、カスタムトリガは書いた 幾つかのジョブで性能測定 社内の番fluentdからKafka経由でFlinkにストリームを投入し、ジョブを十数日くらい連続稼働してみる state backendをHDFSやRocksDBにしてみる JobManager HA TaskManagerやJobManagerを落としてみる Flink on YARN (ジョブを起動してみただけ) 試してないこと DataSet APIの利用 savepoint, savepoint

    kimutansk
    kimutansk 2016/06/02
    大御所が背後にいないのはその通りですが、企業としてdata Artisansがついているのは確かですので・・どう来ますかね?
  • Apache Flinkを試している - Tech Notes

    耐障害性と拡張性のあるストリーム処理基盤が欲しい、と思ってApache Flinkを調べている. 今はリアルタイム集計にNorikraを使っていて、これはとてもカジュアルに使えて良いのだけど、以下の様なケースだと難しい。 比較的止めたくない処理で、サーバ障害時にも自動的に回復して欲しい 1日とか長いtime windowの集計をしているので、途中でサーバが落ちて集計中の状態が失われると辛い トラフィックが増えてきて、複数サーバに負荷を分散したい 例えばストリームに含まれているIDに対応する値を外部のテーブルから取ってくるような、ちょっと複雑な処理をしたい Flinkとはどのようなソフトウェアか 一言で言うと、対障害性と拡張性を備えた、分散ストリーム処理基盤。バッチ処理もストリーム処理の仕組みでできるよね、ということでバッチ用、ストリーム用両方のAPIが提供されている。実行環境としては、Ha

    kimutansk
    kimutansk 2016/06/02
    オペレータの状態を容易に保存する機構を保持しているのがやはりStormやSpark Streamingとの違いですか。
  • リアルタイムとバッチの違い - kuenishi's blog

    昨日、分散DB読書会のあとに品川のラーメン屋でリアルタイムとは何ぞや〜みたいな話になった。自分の思いついたポエムをここに書いておこう。現場の問題とはあまり関係がない。 Stream Data Processing: A Quality of Service Perspective (Advances in Database Systems)というによれば、DSMS (Data Steram Management System) とDBMS (Database Management System)の違いは、クエリを発行するデータ集合の性質にある。つまり、DBMSは今ある有限のデータに対して操作を行うための仕組みで、DSMSはこれからやってくる無限のデータに対して操作を行うための仕組みと定義されていた。このDSMSというやつは、古式ゆかしいストリーム処理システムのことで、まあいわゆるCEP

    リアルタイムとバッチの違い - kuenishi's blog
    kimutansk
    kimutansk 2015/06/16
    「ストリーム処理はデータは非永続的、クエリが永続的、先に決まってなければならない」は実際その通りな構成。リアルタイムはリアルタイムOSと混同するので個人的には使いたくない質ですが
  • MillWheel: Fault-Tolerant Stream Processing at Internet Scale

    Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

    kimutansk
    kimutansk 2014/06/29
    耐障害性を保持したストリーム処理基盤、MillWheelについての論文、と。今度読んでみますか。
  • Streaming Distributed Data Processing with Silk #deim2014

    Silk is a framework for building and running complex workflows of distributed data processing. It allows describing dataflows in Scala in a type safe and concise syntax. Silk translates Scala programs into logical plans and schedules the distributed execution through various "weavers" like an in-memory weaver or Hadoop weaver. It performs static and run-time optimizations of dataflows and supports

    Streaming Distributed Data Processing with Silk #deim2014
    kimutansk
    kimutansk 2014/03/03
    Spark & Spark Streamingと似ていると思いましたが、資料中でも触れられていました。Scala製ですし。ただ、こちらの方がシンプルな構成で動作しそうには見えますが・・さて
  • 1