タグ

2016年6月3日のブックマーク (2件)

  • 第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp

    KPIや応用KPIが決まり、実際に、毎日の運用の中で定期的にデータを更新して、可視化するためには、一連の処理を自動化する必要があります。今回は、データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。 データパイプラインとワークフロー管理 データパイプライン (⁠以下、パイプライン)とは、データ処理を行なう小さなタスク(1回のファイルコピーや、SQLの実行など)を順次実行することにより、最終的に求める結果を得るための一連のプロセスを指します。狭義には、単体のシステム内で完結するパイプラインを指します(SparkやGoogle Cloud Dataflow、など⁠)⁠。 また、広義には、複数のシステムを組み合わせて大きなパイプラインを構成することもあります(MySQLから取り出したデータをRedshiftで集計する、など⁠)⁠。今回、取り上げるパイプラインとは、広義のパイ

    第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp
  • AWS Data Pipelineで日次バッチ処理取得データをS3にポストする - sometimes I laugh

    最近コードを書いてはいるものの、なかなかブログにできるネタがないため、またブログを書くとなれば結局AWSとかインフラ側の話になっちゃうんですね。 さてさて、今回はCDPで問題になりがちなバッチ処理、ジョブスケジューリングです。単純に実現するならばインスタンスを立ててcronで実行する、という形になりますが、実行保証もないし、インスタンス落ちたら終わりだし、AWSのベストプラクティス的にはありえないです。 ではどうするのかといえば、SQSやSWFで冗長性を確保することですが、どちらも実装するにはちょっと面倒臭い。単純にある時間になったらデータを取得してきて、S3に投げるだけのバッチ処理を実装するのに、そんな苦労はしたくないし・・・ と思っていたとき、思わぬサービスを見落としていました。そう、AWS Data Pipelineです。記事ではAWS Data Pipelineを使って日次バッチ

    AWS Data Pipelineで日次バッチ処理取得データをS3にポストする - sometimes I laugh