この記事について この記事では、Docker Hub で公式に公開されている Docker イメージを使用して、Apache Airflow の環境を構築する手順について記載しています。 Airflow は Airbnb のエンジニアが社内で開発したもので、基本的に相互に依存しているタスクと独立しているタスクが複数存在している場合において、実行されている様々なジョブの実行、スケジューリング、配布、監視を効率的に行うことが出来るフレームワークです。 Airflow は 2016 年に Apache の一部となり、オープンソースとしてユーザーが利用できるようになりました。 Airflow 環境を Docker で作るネット記事は多く回っていますが、そのほとんどが他人が自作したものであったり、Dockerfile を独自に作成していたりするものがほとんどだと思います。 こうしたいわゆる 野良の
はじめに ワークフローを作成、実行、監視するためのプラットフォーム「Airflow」が、近年人気を集めていて、多くの企業に利用されています。Airflow Summit 2022 のようなグローバルイベントも開催されるようになり、世界中から2000人以上のコントリビュータ(私もその1人)が貢献しているアツいプロジェクトです。 この記事で Airflow を使う意味と主要コンセプトを説明します。最後に、100行未満で実装できる本格的なデータパイプラインの実例をお見せしたいと思います。 Airflowとは 概要 Airflowは ワークフロー を作成、実行、監視するためのプラットフォームです。ここで言う「ワークフロー」は、依存関係にある複数の タスク を、下図のように繋いだ形で、パイプラインとして実行していくものと思ってください。 Airflowを使うと、より早く、よりロバストなワークフローが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く