今回は Digdag と Embulk を用いて分析基盤を作ったことについて書きます。 意外とハマりポイントが多く、ネット上に知見もそこまで多くなかったため Tips や解決策を書きます。 実行時の環境は以下になります。 背景 社内では Redash を用いて様々な部署の方がデータの分析をしています。 Redash からアクセス可能なデータの中には秘匿情報も含まれるため、権限管理で分析基盤へのアクセスを厳しく制限する形をとっていました。そこで、社内でより分析をしやすい状態を目指し、秘匿情報をマスキングすることで社員なら誰でもアクセスして問題ない状態を作ることにしました。 このような仕組みを作ると何かしらの情報漏洩が発生するリスクを限りなく小さくできるので、サイトのみならず、会社の信頼性に繋がります。やったね。 今回はワークフローエンジンの Digdag とバルクデータローダーの Embul