タグ

Airflowに関するknj2918のブックマーク (85)

  • Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO

    こんにちは、みかみです。 Python で実装されている Job 管理ツール Apache Airflow。 WebUI のJob 管理画面で直感的に分かりやすい操作が可能で、エラー発生時などの通知機能もあり、スケールアウトにも対応していて複数サーバで分散実行もできます。 Python でバッチ Job 開発経験のある方には多分おなじみの Airflow、私も存在は知っていましたが、実際使ったことはありませんでした。 やりたいこと Airflow の構成(アーキテクチャ)を知りたい Airflow の使い方(Job 作成&実行方法)を知りたい Airflow のアーキテクチャ Airflowは、 管理画面表示部の Webserver と、Job実行のスケジュール管理部の Scheduler 、Job実行部の Worker(Executer) から成り立っているようです。 各モジュールは管理

    Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO
  • Airflowを運用して感じた社内エンジニアとしてのAWSサービスとの付き合い方 | 株式会社ヌーラボ(Nulab inc.)

    ※ このブログはヌーラバー Advent Calendar 2020 6日目の記事です。 こんにちは。インハウスシステム課の大塚です。「管理部」所属の社内エンジニアとして活動しています。 私達の大きなミッションは以下の二つです。 社内の業務プロセスの定義、改善、自動化という業務ハックを推し進める 社内のデータ分析、活用、及びデータマネジメントを推し進める この活動は企業が成長していく上でとても重要ですが、残念ながら大きくリソースを割り当てることはできません。 私達は小さなチームの限られたリソースでこのミッションを達成するため、AWSサービスをどのように選定して、活用していくかについて、その方針を事例と合わせながら書きたいと思います。 TL;DR 社内エンジニアAWSサービスをマネージドなサービスを導入する理由 企業の成長で課題は増えていく 目的達成のために注力する Airflowを運用し

    Airflowを運用して感じた社内エンジニアとしてのAWSサービスとの付き合い方 | 株式会社ヌーラボ(Nulab inc.)
  • Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ

    サービス比較各サービス別に、Good/Challenge に分けて記載しています。 GoodMWAA Pythonで実現できることは基すべて実装可能で、実装の制約が少ない UI が充実しており、実行履歴、ログ、実行時間等の様々な情報を参照することが可能 UI 上でワークフローの任意の位置からリトライ可能 各種クラウドSDK/OSS API を呼び出しを簡易化するための provider がサードパーティ提供されている Providers packages reference — apache-airflow-providers Documentation provider を pip でインストール後、各 provider に実装されている operator 関数を呼び出すことで実現可能 Step Functions AWS サービスの呼び出しをローコード(パラメータ指定程度)で実現可能

    Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ
  • AWSのマネージドAirflow "MWAA" 所感

    Google Cloud Composerのリリース(2018年7月19日GA)から遅れること2年数ヶ月、AWSは2020年11月24日に Managed Workflows for Apache Airflow (MWAA) をリリースした。 Introducing Amazon Managed Workflows for Apache Airflow (MWAA) それから1年、遅ればせながら自分でも軽く試してみた。AWSコンソールからAirflow UIに飛ぶのに違和感を覚えつつも1、種々のAWSサービスとの連携を考えると「むしろなんで今まで無かったんだろう」という気さえする。 概要 公式のデモ動画が分かりやすいので、まずはそれを見てみよう。 ポイントは次の通り。 DAGファイル(Pythonコード)は専用のS3バケットに置く OSSのAirflowに完全準拠 (事前に設定した上限値

    AWSのマネージドAirflow "MWAA" 所感
  • Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita

    はじめに ワークフローを作成、実行、監視するためのプラットフォーム「Airflow」が、近年人気を集めていて、多くの企業に利用されています。Airflow Summit 2022 のようなグローバルイベントも開催されるようになり、世界中から2000人以上のコントリビュータ(私もその1人)が貢献しているアツいプロジェクトです。 この記事で Airflow を使う意味と主要コンセプトを説明します。最後に、100行未満で実装できる格的なデータパイプラインの実例をお見せしたいと思います。 Airflowとは 概要 Airflowは ワークフロー を作成、実行、監視するためのプラットフォームです。ここで言う「ワークフロー」は、依存関係にある複数の タスク を、下図のように繋いだ形で、パイプラインとして実行していくものと思ってください。 Airflowを使うと、より早く、よりロバストなワークフローが

    Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita