本記事は「AWS LambdaとServerless Advent Calendar 2020」の17日目の記事です。 やりたいこと Amazon Redshiftにある10億レコードを越えるデータを1レコードずつ、特定の列を判定したりという、シンプルな処理だが全レコードを見ていく必要のある処理をしたい 従来やってた方法 RedshiftからSQLでELTしてUNLOAD UNLOAD結果をEC2へS3からダウンロード JavaやPythonなどのプログラムでバッチ処理実行 結果をS3に格納 この方法でも良かったのですが、大規模データをEC2で高速に並行で処理する、、、前に少し考えてみると、あれLambdaが相性良いのでは?と思い試してみました。 具体的な方法 MAXFILESIZEを指定してUNLOAD UNLOAD先をLambdaのイベントトリガで発火 Lambdaのおおよそのコード