Photo by Austin Distel on UnsplashTech Stack: Python 3.7, Airflow (1.10.10), Docker GitHub link: All of the code can be found here. Airflow + SlackSlack is an increasingly popular chat app used in the workplace. Apache Airflow is an open source platform for orchestrating workflows. One of the biggest advantages to using Airflow is the versatility around its hooks and operators. Hooks are interface
TAG : Airflow | Cloud Composer | GCP | Kubernetes | MLOps | Refeed | tech | Tech & Science AUTHOR : ギックス POSTED : 2020.02.10 09:06 GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 GKE) クラスタ上で実行する構成を取っています。 GKE では複数の node pool を定義できるため、予め用途に応じた複数の node pool を用意しておくことで、タスクに応じた環境の割当てを容易に実現することができます。(現在は β版の提供に留まっていますが、GKE 側で利用リソースに
In one of our previous blog posts, we described the process you should take when Installing and Configuring Apache Airflow. In this post, we will describe how to setup an Apache Airflow Cluster to run across multiple nodes. This will provide you with more computing power and higher availability for your Apache Airflow instance. Airflow Daemons A running instance of Airflow has a number of Daemons
In the 1.10 release, Airflow introduced a new executor to run workers at scale: the Kubernetes executor. In this article we’ll look into: What is Airflow and which problem it solvesThe Kubernetes executor and how it compares to the Celery executorAn example deployment on minikubeTL;DRAirflow has a new executor that spawns worker pods natively on Kubernetes. There’s a Helm chart available in this g
一休のデータサイエンス部に所属しています小島です。 以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。 一休のデータフローをAirflowを使って実行してみる 一休のETLの現状について 一休のETL周りは以下の画像のようになっていました。 課題 ETLの処理時間が伸びた(出社後も処理が続いていた) エラーのリカバリ作業に時間がかかる(ログが確認しにくい, サーバーに入って作業しなければいけない) 複雑な依存関係の定義がしにくい(どれとどれが依存しているかわからない) リソース負荷(全て並列で実行していた) 処理毎のボトルネックが把握できない ツールの問題というよりは正し
先日ラスベガスで開催されたre:Inventに参加し、その際にデータ分析基盤系のセッションはほぼ参加したのですが、Job管理ツールの話がかなり出ていたのが印象的でした。 AWSにはData PipelineというJob管理サービスがあるのですが、それではなくOSSのJob管理ツールを使っているところが多い印象でした。 日本では自分の観測範囲だとまだ使っているところがあまり多くない印象ですが(実際自分もほとんど使ったことない)、いくつか候補を絞って触って見たので感想を書きます。 あくまでJenkinsしか使ったことがないような個人の感想としてお読みください。。 Airflow Airbnbが開発元 re:Inventでは多くのセッションで紹介されており、一番勢いがある印象を受けた。 依存関係はPythonで書く タスクの登録はUIからやるのではなく、コマンドラインから登録 Python力を前
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く