kafkaのパーティション数を選択する際に考慮する点について、kafka作者のブログにまとめられていました。 blog.confluent.io 自身の理解のために、ちょっとまとめてみようと思います。 ※この記事はあくまでも個人的なまとめですので、作者の原文に一度目を通すことをオススメします。 概要 考慮する点は、ざっくりまとめると以下があります。 必要とされるスループット 将来的に必要となりそうなパーティション数 ファイルディスクリプタの数 ノード障害からの復旧時間 レプリケーションに伴う負荷 Producerのバッファメモリ 必要とされるスループット パーティションを追加することは、メッセージのproducerとconsumerの並列化につながるのでスループット向上が期待できます。 1パーティションあたりのproducerのスループットがp 1パーティションあたりのconsumerのス
Apache Kafka 0.9.0より新しいConsumer実装が追加されました。Broker側の実装自体はv0.8.2で既に追加されていましたが、公式実装としてorg.apache.kafka.clients.consumer.KafkaConsumerが同梱されるようになりました。 新しいAPIを用いたConsumerはOffsetの管理とConsumerGroupに紐づくConsumerの管理をBroker側で行ってくれるようになります。詳細に関してはKafkaのwikiに詳しくまとめられています。が、更新されていない資料が多く実際のフローと異なっている所が多いので、実装ベースで現在のConsumerのフローについて確認していきます。 起動時の処理 1. Brokerのクラスタの、いずれか1つのサーバーへ接続を試みる。 起動時に渡されたBrokerの接続先の中から、ランダムに1つの
2016/04にKafkaのリソースをモニタリングするツールkafka-monitorがlinkedinからOSSとして公開された。 プロデューササービスの生成率とコンシューマサービスの消費率、メッセージ損失、メッセージ重複、エンドツーエンドのレイテンシがグラフとして表示できるようなのでKafkaに繋げてみて試してみる。 環境現在、最新版は0.10系であるが、0.9と0.8系しか対応していなさそうなので0.9系を使う。 Kafka Monitor supports Apache Kafka 0.8 and 0.9. Use branch 0.8.2.2 to monitor Apache Kafka cluster 0.8. Apache kafka 0.9.0.1 Java 1.8 Kafkaの起動$ cd kafka_2.11-0.9.0.1 $ bin/zookeeper-serve
Overview of consumer offset management in Kafka presented at Kafka meetup @ LinkedIn. (March 24, 2015)Read less
One of the responsibilities of the Data Infrastructure SRE team is to monitor the Apache Kafka infrastructure, the core pipeline for much of LinkedIn's data, in the most effective way to ensure 100% availability. We have recently developed a new method for monitoring Kafka consumers that we are pleased to release as an open source project - Burrow. Named after Franz Kafka's unfinished short story,
By David Mytton, CEO & Founder of Server Density. Published on the 19th January, 2016. Distributed systems and microservices are all the rage these days, and Apache Kafka seems to be getting most of that attention. Here at Server Density we use it as part of our payloads processing (see: Tech chat: processing billions of events a day with Kafka, Zookeeper and Storm). For the uninitiated, Kafka is
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kafkaでストリーム処理を書けるようになった 2016/06 時点の最新リリース v0.10 から、Kafkaにストリーム処理のアプリケーションを書くためのライブラリが入った。Kafka本体に同梱されているので追加で何かをインストールする必要はない。このライブラリを使うと、 「KafkaのトピックAにデータが入ってきたら、即座ににそれを処理して別のトピックBに格納する」 というアプリケーションを簡単に作ることができる。なお、Kafkaに同梱されているからといって、Kafka本体、すなわちブローカー側に何か特殊な仕掛けが導入されたわけで
I am very excited to announce the availability of the 0.10 release of Apache Kafka and the 3.0 release of the Confluent Platform. This release marks the availability of Kafka Streams, a simple solution to stream processing and Confluent Control Center, the first comprehensive management and monitoring system for Apache Kafka. Around 112 contributors provided bug fixes, improvements, and new featur
こんにちは。 Producerからメッセージを投入時の動作を確認した前回に引き続き、動作を確認していきます。 今回はConsumerがKafkaクラスタに接続した時の動作について、です。 1-1.Consumerのコマンド確認 前回と同じく、Consumerのコマンドを確認します。 重要になるのはgroup、topic、後は必須がZooKeeperURLとなっています。 # cd /opt/kafka # bin/kafka-console-consumer.sh [2014-03-18 07:22:07,118] ERROR Missing required argument "[zookeeper]" (kafka.utils.CommandLineUtils$) Option Description ------ ----------- --autocommit.interval.m
経緯 Apache Kafka 0.9.0.0の変更点を調べていて、日本語でまとめられた記事が見当たらなかったので、自分用に備忘がてら http://kafka.apache.org/documentation.html#upgrade_9_breaking の内容をまとめてみました。 ※ 拙い英語力で調べていますので、誤っている可能性が多々あります。 後方互換性の無い変更 Java 1.6 はサポート外に。 Scala 2.9 はサポート外に。 1000を超えるbroker IDが自動的にbroker IDを割り当てるためにデフォルトで予約されている。クラスタがその閾値を超えようとする場合、それに応じて reserved.broker.max.id を増加するようbrokerを構成する。 replica.lag.max.messagesを削除。パーティションのリーダーは遅延したメッセージ
Apache Kafka は分散キューまたは pub/sub メッセージ配信システムとして使われるミドルウェアである。Kafka は pub/sub システムで一般的にある「トピック」に加えて、各トピックを分散処理のために分割する「パーティション」という機能を持っている。この記事では、どちらもメッセージを分類するという機能をもつ「トピック」と「パーティション」の使い分けを考察してみる。 トピック トピックとは日本語で「話題」という意味がある。pub/sub システムでは、関連するメッセージを集める単位として使われる言葉らしい。筆者は pub/sub システムの一般的な概念をそんなによく知らないのではっきりしたことを言えないが、「アクセスログトピック」とか「システムログトピック」とか「気温と湿度のログトピック」というように、メッセージの種類ごとに分けるのがトピックだと考えている。 メッセージ
アドテクスタジオでは、Apache Kafkaを利用するケースがここ最近増えています。 Apache Kafkaは、2011/01/11 LinkedInから公開されたOpenSourceで分散コミットログを通してpub/sub型を実装 オンライン/オフライン処理に対応しzookeeperを利用したスケールアウトを備えたオープンソースプロジェクトです。 これまではキュー処理といえばActiveMQ等を利用する事が多かったのですが 冗長構成が組め、スケール可能で1台あたりのパフォーマンスが良く、Sparkとの連携を考えた結果、Apache Kafkaの採用を進めました。 必要な構成は以下です(Zookeeperは最小構成が3台となります。) 以前のバージョンではProducerもConsumerもZookeeperにアクセスする形をとっていましたが 現行のバージョンではConsumerはBr
treasure-data/kafka-fluentd-consumer Kafkaからデータを取り出してFluentdに転送するJava実装のKafka Consumerを書きました.基本的なことはREADMEに書いてるんですが,一応日本語でも書いておきます. 背景 1トピック1パーティションであれば,すでに公開されているfluent-plugin-kafkaが使えます.ですが,複数トピックだったりをConsumer Groupを使って処理しようとすると,現状fluent-plugin-kafkaが依存しているPoseidonに機能がたりないという問題があります(output側は問題ありません). 海外だとデータ量が多い会社も多く,それに伴いKafkaを使っている会社が少しずつ増えてます.その影響もあり,FluentdとKafkaを連携させたいという要望がちょくちょく出てきたので,Jav
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く