タグ

2022年8月6日のブックマーク (3件)

  • 【AWS Glue】Glue Studioでカラムを追加して計算結果を格納するETLジョブを作成する - MONEX ENGINEER BLOG │マネックス エンジニアブログ

    こんにちは、マネックス・ラボの田代です。 前回の記事(https://blog.tech-monex.com/entry/2020/07/17/191115)で次回は開発寄りの内容の記事を...などと書いておきながら、3回連続でAWSをテーマにしてしまいました。 書きやすいので。 はじめに データ基盤におけるETLジョブの作成を、ビジュアルエディターと呼ばれるGUI上で行える新サービス、AWS Glue Studioが2020年9月にリリースされました。 このGlue Studioによってデータの抽出や変換と言ったETL処理をGUI操作のみで開発出来るようになり、また標準で用意されていない処理についてはCustom codeを記述して自由に開発する事も可能です。 今回はこのGlue Studioの標準機能とCustom codeを使って、タイトルの通りのETLジョブを作成してみたいと思いま

    【AWS Glue】Glue Studioでカラムを追加して計算結果を格納するETLジョブを作成する - MONEX ENGINEER BLOG │マネックス エンジニアブログ
  • AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ

    はじめにこんにちは。TIGの藤田です。 Python連載 の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます! 特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。 内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を

    AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
  • AWS LakeFormationの使い所とサービス設計を理解する - Qiita

    なぜこの記事を書くのか AWS re:Invent 2018 で歓声とともに発表されたAWS LakeFormationですが、約1年半経っても有効活用がされているという話をあまり聞きません。私は根的にはLakeFormationの「サービス設計がよくない」ことが原因だと思いますが、そもそも情報が少なすぎることも要因の1つだと思います。(最近発売された書籍「AWSではじめるデータレイク」もLakeFormationの説明は少ないです。)そのため、使い方・機能を、それぞれマクロ・ミクロの視点から少し整理してみようと思います。結果的にまとまりのよくない記事になってしまいましたが、利用判断の一助になれば幸いです。 なお記事では以下の機能については触れません。 他社データカタログ機能との比較 Blueprints機能 GlueやIAMの互換性まわり 運用設計 まずはマクロな視点から説明します。

    AWS LakeFormationの使い所とサービス設計を理解する - Qiita