Skip to the content. List of resources on testing distributed systems curated by Andrey Satarin (@asatarin). If you are interested in my other stuff, check out talks page. For any questions or suggestions you can reach out to me on Twitter (@asatarin), Mastodon (https://discuss.systems/@asatarin) or LinkedIn. Table of Contents Overview of Testing Approaches Research Papers Bugs Testing Fault Toler
1. IntroductionNetflix has been among the best online subscription-based video streaming services in the world ([12]) for many years, accounting for over 15% of the world’s Internet bandwidth capacity. In 2019, Netflix already acquired over 167 million subscribers, with more than 5 million new subscribers added every quarter, and operates in more than 200 countries. More specifically, Netflix’s su
Netflix Tech BlogのgRPC APIに関する以下の2つの記事に感銘を受けたので、ここにその概要を日本語で記します。 (めんどくさかったので)翻訳の許可は取ってませんが、再構成してますし元のJavaではなくPythonで書き直していますので、容赦して下さい… Practical API Design at Netflix, Part 1: Using Protobuf FieldMaskPractical API Design at Netflix, Part 2: Protobuf FieldMask for Mutation OperationsまとめgRPCでは、FieldMaskをうまく使うことで、必要な情報だけ取得したりあるいは与えたりしたりできまっせ第一部まずField Maskをどのように使うかを述べています。 背景Remote Callというものは、そもそもコ
RecSysOps: Best Practices for Operating a Large-Scale Recommender System Ensuring the health of a modern large-scale recommendation system is a very challenging problem. To address this, we need to put in place proper logging, sophisticated exploration policies, develop ML-interpretability tools or even train new ML models to predict/detect issues of the main production model. In this talk, we shi
By Alok Tiagi, Hariharan Ananthakrishnan, Ivan Porto Carrero and Keerti Lakshminarayan Netflix has developed a network observability sidecar called Flow Exporter that uses eBPF tracepoints to capture TCP flows at near real time. At much less than 1% of CPU and memory on the instance, this highly performant sidecar provides flow data at scale for network insight. ChallengesThe cloud network infrast
前々からちょっと興味のあったNetflix OSS、ちょっとずつ触ってみようかなと思いまして。 名前はかなり見るので、自分が使うことになるかどうかはかなり不透明ではありますが、知識として知っておくのはよいのではないかなと。 Netflix OSS+Spring Cloudで概要を知るなら、こちらの資料がわかりやすいと思いました。 Spring Boot + Netflix Eureka Eureka で、まずはEurekaから試してみようかなと思います。 GitHub - Netflix/eureka: AWS Service registry for resilient mid-tier load balancing and failover. どういうものかというと、内部DNSの代わり…?サービスディスカバリというらしいです。 登場人物としては、Eureka ServerとEureka
by Allen Wang, Real Time Data Infrastructure At Netflix, our real time data infrastructure have embraced the multi-cluster Kafka architecture and Flink powered stream processing platform, which enable us to deliver trillions of messages per day. This architecture is described in detail in the above blogs and is illustrated in the diagram below. This architecture centers on the concept of “stream”
Netflix はマイクロサービスアーキテクチャ界においてプロダクションで成功例を積んでいる、いわば大先輩だと思われます。 彼らは数多くのイベント登壇や techblog の記事、 GitHub 上による OSS の公開を行っており、それらからアーキテクチャやその変遷を垣間見ることができると考えています。 本記事では筆者が最近悩んでいる、マイクロサービス前提の世界でのログ収集基盤において、 Netflix の様々な事例を調べた結果をつらつら書いていこうと思います。 あらかじめ本記事は正確性を担保しておらず、あくまで筆者個人が調べることができた範囲での記述に留まることをお断りさせていただきます。 Suro: 分散データパイプライン 2015 年くらいにメンテが止まってしまったのですが、分散データパイプラインをうたう Suro というソフトウェアが存在しました。 Suro に関しては解説記事も
Julie (Novak) Beckley, Andy Rhines, Jeffrey Wong, Matthew Wardrop, Toby Mao, Martin Tingley Ever wonder why Netflix works so well when you’re streaming at home, on the train, or in a foreign hotel? Behind the scenes, Netflix engineers are constantly striving to improve the quality of your streaming service. The goal is to bring you joy by delivering the content you love quickly and reliably every
Andreas Andreakis, Ioannis Papapanagiotou OverviewChange-Data-Capture (CDC) allows capturing committed changes from a database in real-time and propagating those changes to downstream consumers [1][2]. CDC is becoming increasingly popular for use cases that require keeping multiple heterogeneous datastores in sync (like MySQL and ElasticSearch) and addresses challenges that exist with traditional
Netflixから機械学習ワークフロー管理用のPythonライブラリ,Metaflowがリリースされました。 これを使うと, データ処理・モデル構築プロセスを統一フォーマットで記述でき,全体のフローを追いやすい モデル・前処理工程のバージョン管理ができる AWS環境上での分散処理が可能 といったメリットがあります。 気になる人は,tutorialを動かしつつ公式ドキュメントに目を通してみましょう。 Tutorialについては,pip install metaflowでライブラリを入れた後, とするだけで一式揃いますので,気軽に試すことができます。 本記事では,ざっくりとした機能概要と使い方をまとめていきたいと思います。 ライブラリ概要 Metaflowでは,データ処理や機械学習モデル構築・予測のワークフローをPythonのクラスとして定義し,コマンドラインから実行します。 その際実行の都度
Netflixは2019年12月3日(現地時間)、データサイエンスプロジェクトを迅速かつ容易に構築、管理するためのフレームワーク「Metaflow」をオープンソースソフトウェアとして公開した。 MetaflowはNetflixが開発したPythonライブラリ。コンテンツ配信やビデオエンコーディングの最適化など、社内の何百ものユースケースに2年間、Metaflowを用いてデータサイエンスを適用してきたという。 なぜMetaflowを開発したのか Metaflowの開発が始まる前、Netflixの機械学習インフラチームはデータサイエンティストに対して社内では何が困難なのかをインタビューした。大規模なデータの扱いやモデル作り、最新GPUに関した回答が集まると当初は考えていたものの、予想は外れた。 最も困難だったのは、「バージョン1」のローンチに到達するまであまりにも時間がかかることだったという。
by David Berg, Ravi Kiran Chirravuri, Romain Cledat, Savin Goyal, Ferras Hamad, Ville Tuulos tl;dr Metaflow is now open-source! Get started at metaflow.org. Netflix applies data science to hundreds of use cases across the company, including optimizing content delivery and video encoding. Data scientists at Netflix relish our culture that empowers them to work autonomously and use their judgment to
By Ammar Khaku IntroductionIn a microservice architecture such as Netflix’s, propagating datasets from a single source to multiple downstream destinations can be challenging. These datasets can represent anything from service configuration to the results of a batch job, are often needed in-memory to optimize access and must be updated as they change over time. One example displaying the need for d
By: Di Lin, Girish Lingappa, Jitender Aswani Imagine yourself in the role of a data-inspired decision maker staring at a metric on a dashboard about to make a critical business decision but pausing to ask a question — “Can I run a check myself to understand what data is behind this metric?” Now, imagine yourself in the role of a software engineer responsible for a micro-service which publishes dat
Anomaly Detection for Data Quality and Metric Shifts at Netflix In the course of transforming, publishing and visualizing data, there’s risk of “bad data” creeping into your output at every turn, hurting data credibility and distracting teams from investigating real metric shifts. How does Netflix prevent bad data from causing bad decision-making? We use a variety of techniques to automate the bas
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く