タグ

airflowに関するs-woolのブックマーク (2)

  • Airflowによるデータパイプラインのスケジュールとモニタリング - Speee DEVELOPER BLOG

    こんにちは!WEBマーケティング事業部エンジニアの@hatappiです。 現在私のプロジェクトでデータパイプラインのスケジュールとモニタリングをAirflowというオープンソースのツールを使用して運用しています。 今回は導入や使い勝手の話です。 Airflowとは? airbnbがオープンソースで開発したワークフロー管理プラットフォームです。 ※ 現在はApache Incubatorのオープンソースプロジェクトになっています。 Airflowはバッチ同士の関係を管理し、可視化することが出来ます。 また、実行した際のLogや実行時間の推移など、様々なデータの閲覧をデフォルトの機能として使用することが出来ます。 データパイプラインとは? プロジェクトを運用していると、複数のテーブルにデータが入っており、それらのサマリーを作成するといった経験をしたことはありませんか? これらの一連のプロセスの

    Airflowによるデータパイプラインのスケジュールとモニタリング - Speee DEVELOPER BLOG
  • Boto3でEMR - /var/log/laughingman7743.log

    最近HiveでETL処理とかするためにEMRをよくさわっています。Boto3からクラスタ起動したりステップ追加したりしています。 Boto2だとクラスタ作成時にセキュリティグループの設定等をapi_paramsに追加する形になり非常にわかりにくいです。 Boto3だとJSONライクな指定ができていろいろと捗ります。 日次でクラスタを起動してETL処理するようなスクリプトのサンプルです。AirflowでDAGを作って実行すると良いですね。 https://gist.github.com/laughingman7743/5c675c9b1d9ed02539e6 クラスタの起動 クラスタ起動時にステップも指定できますが、どうも追加される順序がバラバラだったりするので、起動してから順に追加するような形が良さそうです。 Hiveメタデータストアの指定 ConfigurationsにRDSの接続先を指

    Boto3でEMR - /var/log/laughingman7743.log
  • 1