新宿Geek Lounge#4 分析基盤Meetup ver2での発表資料です。 https://shinjuku-geek-lounge.connpass.com/event/83127/
昨今、AI,ディープラーニング,IoTといった技術が注目を集めていますが、このようなデータ活用技術の利用には、まず活用するデータを「集める」ことが必要です。本稿では、最新テクノロジーを陰で支えるデータ収集技術を、特にテクニカルな面にフォーカスを当ててご紹介します。 データ収集の難しさデータ活用の第一歩となるデータ収集ですが、 実践するとなると考慮が必要なポイントが数多くあり、それらがデータ収集を難しいものとしています。 ここでは、考慮が必要な点として代表的なもの2つをご紹介します。 1.データをどこからどこに送るべきか 昨今のデータ活用では複数のサーバやデバイスで生成されたデータを利用することが多くなっています。また、業務処理とデータ活用など収集したデータを複数の目的で利用するケースも珍しくありません。 このとき、必要に応じてやみくもにデータの受け渡しを行ってしまうと、データの流れが複雑で
みなさんこんにちは、LINEのサーバーサイドエンジニアの長谷部です。普段は、最近でいうとLINE Login や LINE Customer Connect などの開発を担当しています。 2018年の年始に LINEのお年玉 というイベントを実施し、その開発を担当しました。今回の記事では、LINEのお年玉のアーキテクチャの紹介や、当日実際に発生した問題(サービス過負荷起因のkafka consumer遅延)などの振り返りについて書こうと思います。 LINEのお年玉とは お年玉イベント期間中に、お年玉とLINEスタンプをセットで「お年玉つきスタンプ」として販売しました。対象スタンプを購入したユーザーさんは、スタンプ購入数 x 10個 のお年玉が付与されます。 こういったメッセージが受信されます ユーザーは自分がもっているお年玉を友だちに直接送ったりグループに送信することができ、お年玉を受け取
Apache Kafka: Producer, Broker and Consumer2017年は生まれて始めてApache Kafkaを本格的に業務利用(PoCではなく本番運用)した年でした。Apache Kafka的なメッセージングミドルウェアそのもののは、社内的な事情でよく使っていたのでその使い勝手に対して困惑はほとんど無かったですし、ミドルウェアとして非常に安定しているため、Kafkaクラスタそのものでの不具合らしい不具合が発生したことは一度もありませんでした。 しかし、Kafkaのトピック設計などに関してのベストプラクティスは事例ベースでもあまり見かけたことがなく、チームメンバーと悩むことも多かったです。このストーリーでは、主にKafkaを利用したアプリ設計で考えたことや失敗したことを振り返りつつ共有します。なお、パーティション数や各種バッファサイズなどのチューニング要素は今回取
はじめに fluentdからKafkaにデータ送信する際に、気にしておくべきfluentd側のチューニングポイントのまとめです。 fluent-plugin-kafkaのBufferedOutput前提です。 最初にデータが送信される際の流れを簡単に説明した後、チューニングポイントについて記載します。 使用ソフトウェアとバージョン kafka 0.10 fluentd v0.12 fluent-kafka-plugin(BufferdOutput) v0.57 Kafkaへ送信される流れ BufferedOutputプラグインではレコードはchunkと呼ばれる単位に区切られてバッファリングされます。 以下の記事にBufferedOutputの処理の流れが纏められており、参考になります。 本記事ではchunkがキューに入った後、Kafkaに送信されるにあたりどのような処理が行われるかについて
大量のデータを高速に収集できるメッセージ処理システムとして知られる「Apaceh Kafka」が、正式バージョンとなる「Apache Kafka 1.0」に11月1日付けで到達したことが、Kafkaの主要な開発元であるConfluentから発表されました。 Apache Kafkaはスケーラビリティに優れ、大量のデータをリアルタイムに処理する機能を備えたソフトウェアです。 さまざまなアプリケーションやシステムから送られてくるログや大量のセンサーなどから生成されるデータなど、リアルタイムに送信されてくるストリームデータをいったんKafkaで受け止め、それをまとめてHadoopなどの分析エンジンに渡してデータの分析を行う、といった形で使われます。 また、その名称は「変身」などで知られる作家のフランツ・カフカにちなんだものとされています。 バージョン1.0では、Stream APIの強化、Jav
Metrics Are Not Enough: Monitoring Apache Kafka and Streaming Applications 1) Apache Kafka is a distributed system with many moving parts to monitor, including brokers, topics, partitions, and the applications that use Kafka. It is critical to monitor Kafka performance to ensure high availability and catch problems early. 2) Key metrics to monitor include partition replication, broker resource usa
Spark Streaming has supported Kafka since it’s inception, but a lot has changed since those times, both in Spark and Kafka sides, to make this integration more fault-tolerant and reliable.Apache Kafka 0.10 (actually since 0.9) introduced the new Consumer API, built on top of a new group coordination protocol provided by Kafka itself. So a new Spark Streaming integration comes to the playground, wi
The challenge we’ll solveAside from my regular job as a data streaming consultant, I am an online instructor on the Udemy online course marketplace. I teach about the technologies that I love, such as Apache Kafka for Beginners, Kafka Connect, Kafka Streams, Kafka Setup & Administration, Confluent Schema Registry & REST Proxy, Apache Kafka Security, and Kafka Monitoring & Operations, Confluent KSQ
スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり クラウドコンピューティングが普及し、多くの企業が日常的に膨大で多様なデータを扱うようになるにともない、ITの世界では"スケール"という言葉がごく一般的に使われるようになりました。ニーズに応じて利用するコンピューティングリソースを柔軟に増減し、処理を分散してシステム全体の稼働力を上げる"スケール"というしくみは、いまや"あって当然"の概念となり、加えてここ数年はスケールにおいてもよりリアルタイムに近いパフォーマンスが求められるようになっています。 これはサーバやストレージといったハードウェアリソースだけではなく、データベースやミドルウェアにおいても同様で、スケールしやすい技術としてHadoopやPostgreSQLといったオープンソースプロダクトが選ばれるケースが飛躍的に増え
I’m thrilled that we have hit an exciting milestone the Apache Kafka® community has long been waiting for: we have introduced exactly-once semantics in Kafka in the 0.11 release and Confluent Platform 3.3. In this post, I’d like to tell you what Kafka’s exactly-once semantics mean, why it is a hard problem, and how the new idempotence and transactions features in Kafka enable correct exactly-once
10日0時を回ってしまった気がしますが Distributed Computing Advent Calendar 12/9 分、書いていきます。寝なければセーフ! Kafkaアプリケーションのユニットテストについてですが具体的な方法ではなく概論のような形になります。 qiita.com Kafkaアプリケーション is 何 今回話すKafkaアプリケーションは、Kafka brokerそのものの上で動くなにかのプログラムではなく、 Kafka brokerに対してconsumeしたりproduceしたりするクライアントアプリケーションのことです。 例えば Kafkaから読んだデータをフィルタリングしたり情報を付加した後に別トピックに書き戻すアプリケーション(ETL) Kafkaから読んだデータを集約して結果をKVSなどに書き出すアプリケーション Kafkaから読んだデータを使って異常検知
あらまし 今年(2016年)8月10日、イギリスで全く新しい銀行が誕生しました。 イギリスの金融当局、PRA が、「Monzo Bank Ltd」を制限付きで認可。2015年2月に設立以来、別のカード会社と提携してプリペイドカードを発行し、その利用状況をスマホ等で即時に確認できるサービスを限られた顧客に提供してきましたが、これから当局との調整を進め、2017年前半を目処に銀行としての業務を開始すべく準備を進めるとのことです。 技術要素 過去にUberの競合であるHailoや、イギリスのオンラインカラオケサービス等でエンジニアを務め、現在 Monzo の Head of Engineering である Oliver Beattie氏が、公式ブログで「Building a Modern Bank Backend」と題し、技術要素についての説明をしているので、その内容を簡単に紹介します。 マイク
Confluent から KSQL のリリースがアナウンスされました。 Kafka 上で SQL によるストリーム処理が可能となるツールです。早速使ってみましょう。 参考 Introducing KSQL: Open Source Streaming SQL for Apache Kafka KSQL from Confluent | Streaming SQL for Apache Kafka™ - YouTube ksql/docs/quickstart at 0.1.x · confluentinc/ksql Apache Kafka とは Apache Kafka は LinkedIn 製の分散メッセージングシステムです。トピックによるメッセージ管理、コンシューマーグループごとキューイングなどの機能を持ちます。 Apache Kafka KSQL とは KSQL は Kafka や
At The New York Times we have a number of different systems that are used for producing content. We have several Content Management Systems, and we use third-party data and wire stories. Furthermore, given 161 years of journalism and 21 years of publishing content online, we have huge archives of content that still need to be available online, that need to be searchable, and that generally need to
First let's review some basic messaging terminology: Kafka maintains feeds of messages in categories called topics. We'll call processes that publish messages to a Kafka topic producers. We'll call processes that subscribe to topics and process the feed of published messages consumers.. Kafka is run as a cluster comprised of one or more servers each of which is called a broker. So, at a high level
0. 本投稿について LinkedInのKafkaについて書かれた論文を読んだので、概要だけ記録する。 論文リンク http://sites.computer.org/debull/A12june/pipeline.pdf 1. Introduction LinkedInでは、コネクション予測、ジョブのマッチング、表示する広告の最適化をユーザーの行動履歴から機械学習を利用してモデリングしている。 ユーザーのソーシャルネットワークに関連のあるニュースフィードをactivity drivenに投稿している 1.1 Previous Systems 行動履歴データをデータウェアハウス(DWH)にInsertするバッチ指向のシステムとサーバのメトリクスとロギングを処理するシステム(監視システムにのみ利用)の2つのシステムを構築していた。 どちらもpoint to point でデータのやり取りを行
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く