タグ

Airflowに関するhohoho_ho2005のブックマーク (12)

  • 2019年のワークフローエンジンまとめ - Qiita

    概要 データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました 最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思います ワークフローエンジンとは ワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです 古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題があります ジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを1時に開始してそれが完了するとみなして依存するタスクBを2時に開始するというような書き方をすることになるが、実際にタスクAが2時までに終わらなかった場合に処理が上手く実行できない タス

    2019年のワークフローエンジンまとめ - Qiita
  • 【Airflow】最近よく聞くAirflowに入門!EC2で動かしてみた【CI/CD】 - Qiita

    はじめに せっかくの連休なので新しいこと勉強してみたいと思い、reInvent2018にて色々なところで名前が出てきた「Airflow」について触れていきます! なかなかイケてるという噂なので、「Airflowとは何か」から「EC2での導入」「簡単な操作方法 」までこの記事ではまとめてみようと思います。 最近CI/CD周りに興味があるので勉強して業務に活かせるか検討したいと思います。 -----12/19 追記------ Airflow関連の記事も増えてきたのでリンクしておきます。 Airflowでモデルの学習からデプロイまでをやってみた Airflowをここ3ヶ月触ってみた Airflow - データパイプラインのスケジュールと監視をプログラムしてみた What's Airflow ? Airflow is a platform to programmatically author,

    【Airflow】最近よく聞くAirflowに入門!EC2で動かしてみた【CI/CD】 - Qiita
  • 初めて触るAirflow | DevelopersIO

    最近、業務でAirflowを初めて触りました。調査したこと、試しに動かしてみたことなどまとめてみます。 Airflowとは Apache Airflowはいわゆるワークフローエンジンと言われるツールの一種で、 複数のタスクの実行順序を定義するワークフローの作成、実行のスケジューリング、監視などを行うことができます。AirbnbのMaxime Beauchemin氏によって2014年10月に開発され、2016年にはApache Incubatorプロジェクトになっています(参考)。 Airflowでは、DAG(有向非巡回グラフ)でワークフローを表現します。 その基的なコンセプトについては下記の記事で解説されていますので、ご参照ください。 Airflowのコンセプトと仕組みを理解する とりあえず試してみる まずは手元のPC (Mac) で試してみます。 簡単に動かせるDockerイメージとD

    初めて触るAirflow | DevelopersIO
  • Apache Azkaban, Airflow, Luige, Oozie比較 - Kekeの日記

    記事 Apache Azkaban, Airflow, Luige, Oozieのこれらはワークフロー管理に使われるOSSです。 HadoopやSparkなどを使って分散処理をナイトリーに行なっている場合、そのスケージュールリングだったり監視などが大変になってきます。 そのような中で、ワークフロー管理OSSがあるわけですが、どのようにして選定できるかを比較しながら考えます。 tl;dr 比較表は以下の通り。 OSS名 開発元 年 目的 主な開発方法 留意点 Azkaban LinkedIn hoge Hadoopのバッジ処理を時間単位でスケージューリングする目的。 GUI リッチなUIで監視、検索したりすることができる。 Airflow Airbnb 2015 DAGSのようにワークフローをモニタし、認証し、スケージューリングする目的。 Luigeのようにプログラムベース リッチなCLI

    Apache Azkaban, Airflow, Luige, Oozie比較 - Kekeの日記
  • VagrantでApache AirflowとMySQLをインストールした仮想マシン(Ubuntu16.04)を構築する

    Apache AirflowはPython言語のタスクスケジューラです。 〇Apache Airflowの画面 〇構築方法 1.以下のVagrantfileを使用して、 Apache Airflowをインストールした仮想マシン(Ubuntu16.04)を構築します。 Vagrantfile VAGRANTFILE_API_VERSION = "2" Vagrant.configure(VAGRANTFILE_API_VERSION) do |config| config.vm.box = "bento/ubuntu-16.04" config.vm.hostname = "ub1604airflow" config.vm.provider :virtualbox do |vbox| vbox.name = "ub1604airflow" vbox.cpus = 4 vbox.memory

    VagrantでApache AirflowとMySQLをインストールした仮想マシン(Ubuntu16.04)を構築する
  • Apache AirFlowをDocker環境で構築して簡単なジョブを作る - け日記

    仕事でApache AirFlowを使う機会がありましたので、調査がてらに、Dockerで環境を構築し、簡単なジョブを定義します。 AirFlow AirFlowはジョブのスケジューリング・監視を、コード(主にPython)で定義・制御するためのプラットフォームです。ワークフロー、データフローの実装・運用に使われます。 github.com 類似のソフトウェアには、前回・前々回で紹介したLuigiや、Treasure DatasのDigDagなどがあります。 AirFlowではスケジューラも提供されているため、Luigiよりも広い範囲をカバーします ワークフローを、AirFlowではPython、DigDagでは.dagファイルで定義します Dockerで環境構築 ローカルに環境をインストールすることもできますが、Dockerでサクッと環境構築します。 以下のレポジトリからdocker-c

    Apache AirFlowをDocker環境で構築して簡単なジョブを作る - け日記
  • SIOS Tech. Lab - エンジニアのためになる技術トピックス

    2024-06-24 DomainObjectからValueObjectを自動生成するOSS作ってみた ~ ts-vo-generator~

    SIOS Tech. Lab - エンジニアのためになる技術トピックス
  • Apache Airflow入門 (マーケティングデータ分析基盤技術勉強会)

    Apache Airflowとは、 「Python言語で定義したワークフローを、スケジュール・モニタリングするためのプラットフォーム」です。 この勉強会では、Apache Airflowの概要と特徴を紹介し。 Airflowをセットアップし簡単なワークフローを実行する方法を説明します。 ジョブの依存関係解決・再実行が行いやすいというAirflowの特徴が活かせる利用シーンとして、 レポーティングや機械学習での利用イメージについても紹介します。Read less

    Apache Airflow入門 (マーケティングデータ分析基盤技術勉強会)
  • Apache Airflow を構築するときに参考になった情報 - Qiita

    Apache Airflow のコンセプトを理解するのに参考になった情報 公式ドキュメントの解説だけでは,Apache Airflow のコンセプトの理解が難しいです.つぎのページは,Apache Airflow のコンセプトがわかりやすく解説しています.これを読んだ上で,公式ドキュメントの"Concepts"のページを読むと良いでしょう. Understanding Apache Airflow’s key concepts – Dustin Stansbury – Medium Concepts — Airflow Documentation Apache Airflow をインストールしたり HA したりするのに参考になった情報 Apache Airflow の公式ドキュメントだけでは,Airflow のアーキテクチャなどの概要がわかりにくいです.つぎのページでは,Airflow の

    Apache Airflow を構築するときに参考になった情報 - Qiita
  • Airflow を用いたデータフロー分散処理 - LIVESENSE Data Analytics Blog

    こんにちは。テクノロジカルマーケティング部 データプラットフォームチームの村上です。 弊社各サービスのデータ分析基盤であるLivesense Analytics(以降LA)の開発、運用を行っています。 日は弊社データプラットフォームでも活用しているフロー管理ツールAirflowについて、分散処理の概要や最近の更新についてご紹介します。 Airflowについて Airflowとは github.com Airflowはデータ処理フローを管理するツールです。元々はAirbnb社が開発して公開したソフトウェアです。その後Apacheソフトウェア財団のサポートを受けて現在はApache Airflowという正式名称になっています(ブログでは以下Airflowと記述します)。ライセンスはApache License2.0です。体コードはpythonで作られています。 2018年2月現在、正式リ

    Airflow を用いたデータフロー分散処理 - LIVESENSE Data Analytics Blog
  • Airflowのコンセプトと仕組みを理解する | DevelopersIO

    春田です。 Airflowを活用したプロジェクトに携わる事になったのですが今回初めて触れる形となるため、まずはAirflowに関する概要を勉強しながらまとめてみました。 Airflowとは The Airflow Platform is a tool for describing, executing, and monitoring workflows. Airflowは、ワークフロー(例えば、A B Cという3つのタスクがあった時、これらをいつどの順番で実行するか)を記述、実行、監視するためのツールです。 このAirflowは DAG (Directed Acyclic Graph: 有向非巡回グラフ) というグラフ理論がベースになっています。私自身、グラフ理論にあまり精通していないのため、自分でも理解できるように噛み砕いた言葉で説明していきます。 DAG (Directed Acycl

    Airflowのコンセプトと仕組みを理解する | DevelopersIO
  • 一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog

    一休のデータサイエンス部に所属しています小島です。 以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。 一休のデータフローをAirflowを使って実行してみる 一休のETLの現状について 一休のETL周りは以下の画像のようになっていました。 課題 ETLの処理時間が伸びた(出社後も処理が続いていた) エラーのリカバリ作業に時間がかかる(ログが確認しにくい, サーバーに入って作業しなければいけない) 複雑な依存関係の定義がしにくい(どれとどれが依存しているかわからない) リソース負荷(全て並列で実行していた) 処理毎のボトルネックが把握できない ツールの問題というよりは正し

    一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog
  • 1