Photo by Austin Distel on UnsplashTech Stack: Python 3.7, Airflow (1.10.10), Docker GitHub link: All of the code can be found here. Airflow + SlackSlack is an increasingly popular chat app used in the workplace. Apache Airflow is an open source platform for orchestrating workflows. One of the biggest advantages to using Airflow is the versatility around its hooks and operators. Hooks are interface
一休のデータサイエンス部に所属しています小島です。 以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。 一休のデータフローをAirflowを使って実行してみる 一休のETLの現状について 一休のETL周りは以下の画像のようになっていました。 課題 ETLの処理時間が伸びた(出社後も処理が続いていた) エラーのリカバリ作業に時間がかかる(ログが確認しにくい, サーバーに入って作業しなければいけない) 複雑な依存関係の定義がしにくい(どれとどれが依存しているかわからない) リソース負荷(全て並列で実行していた) 処理毎のボトルネックが把握できない ツールの問題というよりは正し
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く