この記事は一休.com Advent Calenrad 2017の11日目です。 データサイエンス部小島です。 現在はレコメンドまわりを担当しています。 試験的に導入予定のETLツールAirflowについて書こうと思います。 Airflowについて 一言でいうと、高機能なcronです。 Pythonでかけて、タスクごとの依存関係を定義できます。 元々はAirbnbが独自で開発し、今はApacheのIncubetorのプロジェクトになっています。 一休のデータフローを考えてみる 一休ではセッションごとの情報を集約してまとめています。 そのデータをDWHに加工するまでの流れをまとめると以下のようになります。 上記のデータ処理を日次で行うようなものをAirflowで実装していきたいと思います。 環境の構築 今回は簡単にgithubに環境を公開してくれている方のをおかりしてセットアップしていきます
![一休のデータフローをAirflowを使って実行してみる - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/6d6d05c615dcbf610dbc5c449494ef2ab38c2dd3/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU0JUI4JTgwJUU0JUJDJTkxJUUzJTgxJUFFJUUzJTgzJTg3JUUzJTgzJUJDJUUzJTgyJUJGJUUzJTgzJTk1JUUzJTgzJUFEJUUzJTgzJUJDJUUzJTgyJTkyQWlyZmxvdyVFMyU4MiU5MiVFNCVCRCVCRiVFMyU4MSVBMyVFMyU4MSVBNiVFNSVBRSU5RiVFOCVBMSU4QyVFMyU4MSU5NyVFMyU4MSVBNiVFMyU4MSVCRiVFMyU4MiU4QiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9MWViMDQ2MGRkOWY1NWM3YmU5MGM3ZGE2ZjA0NzJmY2M%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBrb2tvamltYSZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZWI4Y2NiNWNiMGVlMzIyZDdlOTY2Y2VjZjFhMzYxM2Y%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3Df1ae2416d533924129dc101c34b41747)