タグ

aws-data-pipelineに関するnabinnoのブックマーク (5)

  • Step Functions とは - AWS Step Functions

    翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 Step Functions とは を使用すると AWS Step Functions、 とも呼ばれるワークフローを作成して、分散アプリケーションステートマシンの構築、プロセスの自動化、マイクロサービスのオーケストレーション、データと機械学習パイプラインの作成を行うことができます。 Step Functions はステートマシンとタスクに基づいています。Step Functions では、ステートマシンはワークフローと呼ばれます。これは、一連のイベント駆動型ステップです。ワークフローの各ステップはステートと呼ばれます。例えば、タスク状態は、別の AWS のサービス や API の呼び出しなど、別の AWS サービスが実行する作業単位を表します。タスクを行うワークフロ

  • Amazon RDS から Amazon Redshift へのテンプレート - AWS Data Pipeline

    AWS Data Pipeline は、新規顧客には利用できなくなりました。の既存のお客様は、通常どおりサービスを AWS Data Pipeline 引き続き使用できます。詳細はこちら 翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 Amazon RDS から Amazon Redshift へのテンプレート 以下の 2 つのテンプレートでは、変換スクリプトを使用して、Amazon RDS MySQL から Amazon Redshift にテーブルをコピーします。変換スクリプトでは、ソーステーブルのスキーマを使用して Amazon Redshift テーブルが作成されます。以下の点に注意してください。 分散キーを指定しなかった場合は、Amazon RDS テーブルの最初のプライマリキーが分散キーとして設定され

  • AWS LambdaをCronっぽく周期実行させる - Qiita

    はじめに AWS LambdaはEvent Drivenに設計されており、Cron Jobの様なSchedule Drivenで起動する事は想定されていません。LambdaをScheduleで起動する方法は、こんな方法も有るみたいですが、ここではAWSのData Pipelineの機能を使って、LambdaをSchedule Drivenで周期実行する方法をチラ裏しておきます。 ただし、Data Pipelineの制約として、実行周期は15分以上にしか設定出来ないので注意してください、1分毎の実行などはできません。 全体の流れ 設定する項目の流れは、以下の様になっています。 Lambda functionの作成 Lambda functionのnode.js codeの作成 Lambdaの実行に必要なIAM Roleを作成(or 既存のIAM Roleを設定)する LambdaのEvent

    AWS LambdaをCronっぽく周期実行させる - Qiita
  • AWS Data Pipelineをスケジューラとして使う - Qiita

    AWS Data Pipeline。名前からするとETLやデータの移動のために使われるイメージが強いんだけど、実はCronぽいスケジューラとしても使えるので、ポイントをまとめておく。 方針は単純で、 Data Pipelineをシェルスクリプトを起動するためだけに利用するという感じ。 Data Pipeline、いろいろ覚えることがあって若干めんどくさいところもあるが 個別のサーバーに依存しないスケジューラを使える というのはそれなりに価値があるところだと思う。 処理の定義(アクティビティオブジェクト) Data PipelineのアクティビティにはShellCommandActivityというものがあって、これはOS上で単純にシェルスクリプトを実行してくれる。 Commandというパラメータに直接シェルスクリプトを渡してやればOK。もう少しちゃんと管理したいならScriptUrlというパ

    AWS Data Pipelineをスケジューラとして使う - Qiita
  • AWS Glue(分析用データ抽出、変換、ロード (ETL) )| AWS

    質の高い結果を得るためにデータを準備することは、分析または AI プロジェクトの最初のステップです。AWS Glue は、データ統合をよりシンプル、迅速、低コストにするサーバーレスサービスです。100 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理するとともに、データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、データウェアハウス、レイクハウスにロードできます。生成 AI 機能が組み込まれているため、ETL オーサリングと Spark のトラブルシューティングのインテリジェントな支援を活用して、Apache Spark ジョブをモダナイズし、開発を加速できます。

    AWS Glue(分析用データ抽出、変換、ロード (ETL) )| AWS
  • 1