So we're all working on data pipelines every day, but wouldn't be nice to just hit a button and have our code automatically deployed to staging or test accounts? I thought so, too, thats why I created the EMR CLI (emr) that can help you package and deploy your EMR jobs so you don't have to. The EMR CLI supports a wide variety of configuration options to adapt to your data pipeline, not the other w
Amazon EMRはEC2やEKS上にSparkやHive, Prestoのクラスタを構築するサービス。 SparkのマネージドサービスであるGlueと比べると、Glueはサーバーレスで手軽にSparkによるETL処理をを行えるのに対して、EMRはスポットインスタンスなどを利用したコストパフォーマンスの良さと詳細なチューニングを行うことができるという特長があるが、EMR Serverlessがリリースされたのでその差は少し縮まっているように感じる。Glueにはスキーマを指定する必要がないDynamicFrameや前の続きから実行できるBookmarkといった便利な機能もあるが、重い処理を立て続けに実行するとコストが嵩んだりDPUなどのクォータに引っかかることもあるので適宜使い分けていきたい。 AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う - sambai
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く