タグ

awsとglueに関するopparaのブックマーク (4)

  • S3に置いたCSVをAthena (+Glue) で検索したい | DevelopersIO

    広島の吉川です。 DynamoDBに蓄積したデータを分析用途で柔軟に検索したいという要件に対し、Athenaが良い武器になる気がしたので素振りしてみました。 「DynamoDBからS3にCSV出力し、そのCSVをAthenaで集計する」といったシナリオを念頭に、今回は「S3上のCSVファイルのスキーマを読み取ってGlueに作成し、Athenaでクエリをかける」という部分を検証してみました。 Athenaが初めてだったので色々ドキュメントやブログ見たり社内で聞いたりしつつ触ってみました。 環境 node 16.14.0 typescript 4.6.3 esbuild 0.14.32 esbuild-register 3.3.2 uuid 8.3.2 csv 6.0.5 テスト用のCSVファイルを作成 50万件レコードのCSVファイルを作成します。今回は以下のNode.js (TypeScr

    S3に置いたCSVをAthena (+Glue) で検索したい | DevelopersIO
  • AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ

    はじめにこんにちは。TIGの藤田です。 Python連載 の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます! 特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。 内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を

    AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
  • AWS Glueの開発環境の構築(2021) | フューチャー技術ブログ

    概要AWS Glueの環境構築は過去の記事にあるのですが、公式のDockerイメージが案内されているので改めて、構築してみます。 過去の類似する内容の記事 AWS Glueの単体テスト環境の構築手順 AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました なお、Glueの公式イメージでもJupyter Notebookは利用できるのですが、使い勝手を考慮し、Jupyterlabに差し替えています。 手順 Dockerfile作成 docker-compose.yml作成 動作確認 DockerfilePySparkのオプションを設定しつつ、gluepysparkを実行していますが、gluepysparkがPySparkのwrapperになっているため、こちらの設定で問題なく動作しています。 Dockerfile# ベースとなる公式イメージ FROM amaz

    AWS Glueの開発環境の構築(2021) | フューチャー技術ブログ
  • [AWS Glue]S3とDynamoDBから取得したデータを結合(Join)するジョブを作ってみた | DevelopersIO

    こんにちは、CX事業部の若槻です。 AWSのETLサービスであるAWS Glueでは、Amazon S3、Amazon Redshift、Amazon DynamoDBなど様々なサービスにデータソース/ターゲットとして接続することができます。 Connection Types and Options for ETL in AWS Glue - AWS Glue 今回は、AWS GlueでS3とDynamoDBから取得したデータを結合(Join)するジョブを作ってみました。 作ってみた 以下のような構成の、デバイスからIoT Core経由で送信される生データ(devices_raw_data)と、DynamoDBにて定義したデバイステーブル(devices)のデータを、GlueジョブでデバイスIDを元にして結合して分析用データ(devices_integrated_data)を作成する仕組

    [AWS Glue]S3とDynamoDBから取得したデータを結合(Join)するジョブを作ってみた | DevelopersIO
  • 1