タグ

ブックマーク / ogibayashi.github.io (2)

  • Apache Flinkを試してみての感想 - Tech Notes

    しばらくApache Flinkを試してみたので、感想を書いておこうと思う. 試したこと standalone modeでのクラスタ構築 ストリーミングジョブを書いてみる TumblingTimeWindowやSlidingTimeWindowでの集計 Kafka SourceとElasticsearch Sinkの利用 必要だったので、カスタムトリガは書いた 幾つかのジョブで性能測定 社内の番fluentdからKafka経由でFlinkにストリームを投入し、ジョブを十数日くらい連続稼働してみる state backendをHDFSやRocksDBにしてみる JobManager HA TaskManagerやJobManagerを落としてみる Flink on YARN (ジョブを起動してみただけ) 試してないこと DataSet APIの利用 savepoint, savepoint

    tagomoris
    tagomoris 2016/07/21
    ふうむ
  • Apache Flinkを試している - Tech Notes

    耐障害性と拡張性のあるストリーム処理基盤が欲しい、と思ってApache Flinkを調べている. 今はリアルタイム集計にNorikraを使っていて、これはとてもカジュアルに使えて良いのだけど、以下の様なケースだと難しい。 比較的止めたくない処理で、サーバ障害時にも自動的に回復して欲しい 1日とか長いtime windowの集計をしているので、途中でサーバが落ちて集計中の状態が失われると辛い トラフィックが増えてきて、複数サーバに負荷を分散したい 例えばストリームに含まれているIDに対応する値を外部のテーブルから取ってくるような、ちょっと複雑な処理をしたい Flinkとはどのようなソフトウェアか 一言で言うと、対障害性と拡張性を備えた、分散ストリーム処理基盤。バッチ処理もストリーム処理の仕組みでできるよね、ということでバッチ用、ストリーム用両方のAPIが提供されている。実行環境としては、Ha

    tagomoris
    tagomoris 2016/07/21
    ふむ
  • 1