並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 150件

新着順 人気順

Glueの検索結果1 - 40 件 / 150件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Glueに関するエントリは150件あります。 awsデータAWS などが関連タグです。 人気エントリには 『Auroraを活用してAWS Glueでデータ分析機能を構築した話 - techtekt』などがあります。
  • Auroraを活用してAWS Glueでデータ分析機能を構築した話 - techtekt

    ベネッセ i-キャリアの小島です。 dodaキャンパスでは、AWS AthenaやQuickSightを利用して、日々データ分析活用を行っていますが、 今回は、Auroraを活用して、AWS Glueでデータ分析機能を構築しました。 その際に選定したアーキテクトとその理由を中心にお話させていただきたいと思います。 背景 dodaキャンパスでは現在、以下のサービスを用いてデータを取り扱っています。 DynamoDB サービスのデータ管理として利用 Athena SQLを用いたデータ分析に利用 QuickSight AthenaをデータソースとしたBIツールとして利用 今回、QuickSightで実行しているデータ分析のような機能を法人ユーザーにも提供することになりました。 要件は以下です 前日までの分析データのためデータの更新は1日1回でよい Readは大量かつ高速であることが求められる グ

      Auroraを活用してAWS Glueでデータ分析機能を構築した話 - techtekt
    • AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ

      こんにちは、最近データエンジニア業を多くやっているデータサイエンティストの白瀧です。 これまでClassiのデータ基盤は、Reverse ETLをしたり監視システムを導入したりとさまざまな進化をしてきました。しかし、Classiプロダクトが発展するとともにデータ量が増加し、これまでのデータ基盤では耐えられない状態に近づいてきました。 そこでデータ基盤の一部(DBからのExportを担う部分)のリアーキテクチャを実施したので、この記事で紹介したいと思います。 概要 Classiのデータ基盤では、Amazon RDSからAmazon S3へJSONで出力し、その後GCS→BigQueryという流れでデータを送り、BigQueryからもBIツールやReverse ETLなどで使っています。詳細は、Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログを参照してください。

        AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ
      • ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ

        皆さん,こんにちは!MLエンジニアの柏木(@asteriam)です. ここ最近は検索エンジン内製化プロジェクトに携わっていて,検索エンジニアとして,検索基盤の主にデータ連携・同期の実装を1から構築したりしていました.7月中旬にABテストまで持っていくことが出来たので,ひとまず安心しているところです.ここからはユーザーの検索体験向上のために検索品質の改善に力を入れていく予定です! はじめに 今回新しく検索基盤をAWSのマネージドサービスを活用して構築しました!本エントリーでは,タイトルにもあるように,検索基盤の肝であるDBから検索エンジンへのデータ同期をAWS Glueを用いてニアリアルタイムで実施したお話になります.我々は以下の構成で今回の検索基盤を構築しています. 検索エンジン:Amazon OpenSearch Service データベース:Amazon Aurora データ同期(ET

          ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ
        • [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO

          先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました! AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのか まず、AWS Glue?ナニソレ?という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL(抽出/変換/ロード)サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。 従来であれば、例え

            [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO
          • Being Glue — No Idea Blog

            Talk Abstract:Your job title says "software engineer", but you seem to spend most of your time in meetings. You'd like to have time to code, but nobody else is onboarding the junior engineers, updating the roadmap, talking to the users, noticing the things that got dropped, asking questions on design documents, and making sure that everyone's going roughly in the same direction. If you stop doing

              Being Glue — No Idea Blog
            • AWS Glueを使った Serverless ETL の実装パターン

              本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない?」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法(コーディング、テスト、デプロイ、モニタリングなど)を紹介します。

                AWS Glueを使った Serverless ETL の実装パターン
              • AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現

                AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現 データを基に分析を行う場合、対象となるデータがきちんと整っている必要があります。 しかし多くの場合、日付データの中に日付に変換されなかった数値データが混ざっていたり、同じ会社なのに「株式会社」と「(株)」と「(株)」の表記が揺れているせいで別の会社に分類されたり、名前や住所のどこかに余計なスペースが入っていて別のデータになったり、データをインポートしたときのミスで2つの列が連結されて1つの列に入っていたりと、整っていないデータが紛れ込んでいるものです。 これらを整理しなければ、正確なデータ分析はできません。そこで、データ分析の前処理としてデータを整える、いわゆる「データクレンジング」と呼ばれる作業が行われます。 データクレンジングは一般に手間と時間がかかる作業です。どんな

                  AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現
                • コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました! | DevelopersIO

                  コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました! 日本時間の2020年11月12日(火) 早朝、機械学習を使用した新しいビジュアルデータ準備ツールとして「AWS Glue DataBrew」という機能が突如発表されました!そしてこちらの機能、既に本日から利用可能となっているようです。 AWS Glue DataBrew, a visual data preparation tool that enables data scientists and data analysts to clean & normalize data up to 80% faster, is now generally available. Read this AWS News Blog to learn

                    コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました! | DevelopersIO
                  • 【機械学習に役立つ3つのAWSサービス】SageMaker・Athena・Glueについて解説 - Qiita

                    AWSで機械学習を行うときに、役に立つサービスを紹介します! なお当記事の読者として、以下の知識がある方を想定しています。 ・ EC2、S3及びRDSといったAWSの基本的な機能 ・ 機械学習のおおまかな流れについて ・ Jupyter notebookとは? この記事では、特に使用頻度の多い「SageMaker」「Athena」「Glue」の三つのサービスについて、それぞれの特徴と使用場面をざっくり理解していただけたらと思います! AWSで機械学習を行うメリット ライブラリを標準装備しているため、環境設定を行う必要がない 学習に時間がかかる場合でも、インスタンスの性能を引き上げることで高速化が可能 既にAWSを使っていて、S3などのストレージに学習データがある場合、処理がスムーズ データベースや学習の実装、デプロイまでを一貫してAWS上で行うことができる ローカルマシンではなく、AWS上

                      【機械学習に役立つ3つのAWSサービス】SageMaker・Athena・Glueについて解説 - Qiita
                    • SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由

                      クラウドサービスを使い、サーバーレスでプログラムコードを実行する「FaaS(ファンクション・アズ・ア・サービス)」を構築する企業が相次いでいる。AWS Lambda(ラムダ)に代表されるFaaS基盤のクラウドサービスを利用すれば、開発者は仮想マシンやコンテナなどの実行環境を構築・管理する必要がなくなり、開発のスピードアップに寄与する。コードの実行が終わると必要に応じてITリソースを解放する仕組みなので料金が比較的安く、コスト削減にもつながる。 FaaSの構築はDX(デジタル変革)に向けたシステム開発・改善のスピード向上や、クラウドコスト削減などに欠かせない。SBI生命保険はFaaSによってETL(抽出/変換/ロード)を実装しデータウエアハウス(DWH)システムを構築した。DWHプロジェクトの軌跡を見ていこう。 管理コストや作業負荷をFaaSで解消 「経営の意思決定に必要なデータや分析処理を

                        SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由
                      • AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO

                        先日、AWS Glueの新機能としてリリースされた「AWS Glue DataBrew」。 「コードを書かずに”データ前処理”を作成・実行可能」な機能、という触れ込みでしたが、ドキュメントには一連の操作や機能を確認出来る「チュートリアル」も用意されています。 Getting started with AWS Glue DataBrew - AWS Glue DataBrew そこで当エントリでは、公式ドキュメントで紹介されているチュートリアルを実践していく上で必要となる用語の理解、及びチュートリアルの実践内容について紹介していきたいと思います。(※なお、チュートリアル本編を試してみたところ、画像キャプチャと情報量が半端無いボリュームになってしまったので、チュートリアル実践内容については章毎にエントリを分けて展開しています。ご了承ください) 目次 AWS Glue DataBrewの基本概念

                          AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO
                        • AWS Glue で機密データを処理出来る Sensitive data detection API に日本向けのデータパターンが追加されたので試してみた | DevelopersIO

                          AWS Glue で機密データを処理出来る Sensitive data detection API に日本向けのデータパターンが追加されたので試してみた いわさです。 AWS Glue では、データに含まれる機密データを処理するための Sensitive data detection API という機能があります。 これまで日本語圏のデータはサポート範囲が限定的だったのですが、本日のアップデートでいくつか日本および英国のデータタイプがサポートされるようになりました。 本日は日本のダミーデータを用意して検証を行ってみました。 Glue Studio でジョブを作成 Sensitive data detection API の利用方法です。 AWS Glue Studio で Detect Sensitive Data アクションが用意されていますのでそちらを利用します。 以下のように Gl

                            AWS Glue で機密データを処理出来る Sensitive data detection API に日本向けのデータパターンが追加されたので試してみた | DevelopersIO
                          • AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード | Amazon Web Services

                            ユースケース: OpenSearch Service への読み込み前の個人情報バッチ検出 このアーキテクチャを実装しているお客様は、さまざまな分析を大規模に実行するために、Amazon S3 上にデータレイクを構築しています。このソリューションは、OpenSearch Service へのリアルタイム取り込みが不要で、スケジュールで実行される、またはイベントによってトリガーされるデータインテグレーションツールを使用することを計画しているお客様に適しています。 Amazon S3 にデータレコードが到着する前に、データレイクにすべてのデータストリームを信頼できる形で安全に取り込むための取り込みレイヤーを実装します。 Kinesis Data Streams は、構造化および半構造化データストリームの高速な取り込みのための取り込みレイヤーとして導入されます。これらの例としては、リレーショナルデ

                              AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード | Amazon Web Services
                            • 藤田まさみ on Twitter: "桜を見る会の問題を追求している #宮本徹 さんから興味深い話を聞いた。4月13日共産党の吉良よし子さんの不倫のデマが流され、デマ元を探ると某サイトに辿り着く。するとそのサイトの関係者全員が会に招待されている事が分かり、5月9日に名… https://t.co/4gLuE4TRye"

                              桜を見る会の問題を追求している #宮本徹 さんから興味深い話を聞いた。4月13日共産党の吉良よし子さんの不倫のデマが流され、デマ元を探ると某サイトに辿り着く。するとそのサイトの関係者全員が会に招待されている事が分かり、5月9日に名… https://t.co/4gLuE4TRye

                                藤田まさみ on Twitter: "桜を見る会の問題を追求している #宮本徹 さんから興味深い話を聞いた。4月13日共産党の吉良よし子さんの不倫のデマが流され、デマ元を探ると某サイトに辿り着く。するとそのサイトの関係者全員が会に招待されている事が分かり、5月9日に名… https://t.co/4gLuE4TRye"
                              • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                                Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                                  [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                                • DynamoDB から S3 への定期的なエクスポートの仕組みを AWS Glue と Step Functions を使用して実装してみた | DevelopersIO

                                  コンバンハ、千葉(幸)です。 DynamoDB テーブルの中身を S3 バケットにエクスポートしたい、という場合があるかと思います。S3 にエクスポートしたものに対して、例えば Athena を利用して解析をかけたい、といったケースです。 AWS Glue や AWS Step Functions を利用して、定期的にエクスポートを行う仕組みについて以下のブログで紹介されているので、試してみました。 CloudFormation テンプレートや スクリプトが用意されているので、一通り流すだけでできます。 全体像としては以下のイメージです。 Data Pipeline, EMR, Glue の比較 Step Functions の Glue Workflow への置き換え Glue ETL スクリプトの 各種バージョン Glue ETL スクリプトのDynamoDB 読み取り並列度 目次 D

                                    DynamoDB から S3 への定期的なエクスポートの仕組みを AWS Glue と Step Functions を使用して実装してみた | DevelopersIO
                                  • AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール | Amazon Web Services

                                    Amazon Web Services ブログ AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール 分析の実行、レポートの作成、あるいは機械学習の導入を始めるには、使用するデータがクリーンで適切な形式であることを確保する必要があります。このデータの準備ステップでは、データアナリストとデータサイエンティストに対し、カスタムコードの記述や、多くの手動操作が要求されます。そこではまず、データを見て、利用できそうな値を把握し、列同士の間に相関があるかどうかを確認するための簡単な可視化機能を構築する必要があります。その後、想定を外れた通常以外の値をチェックします。たとえば、200℉(93℃)を超えるような気温や、200mph(322 km/h)を超えるトラックの速度、そして欠落しているデータなどを洗い出します。多くのアルゴリズムでは、特

                                      AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール | Amazon Web Services
                                    • Technical leadership and glue work / Being Glue を読んで - こまぶろ

                                      Tanya Reilly による「Technical leadership and glue work」という講演(および、その文字起こしによるブログ「Being Glue」)があります。(以下、講演に特に言及する場合を除き、「記事」として言及します)。 www.youtube.com noidea.dog Manager ではなく Individual Contributor としてのキャリア 筆者の Tanya Reilly は、元GoogleのStaff Systems Engineerで、現在はSquarespaceでPrincipal Software Engineerを務めています。これらの職名からもわかるように、彼女はマネージャーではなくエンジニアとして昇進を続けながら活躍してきた人です。 エンジニアリングマネージャーについての書籍は、翻訳が出ている『エンジニアのためのマネジ

                                        Technical leadership and glue work / Being Glue を読んで - こまぶろ
                                      • AWS再入門ブログリレー2022 AWS Glue編 | DevelopersIO

                                        当エントリは弊社コンサルティング部による『AWS再入門ブログリレー2022』の39日目のエントリです。 このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、 今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう!という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとっても AWSサービスの再発見や 2022年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。今日のテーマは『AWS Glue』です。 AWS Glueとは AWS Glueは様々なデータソースのメタデータを管理し、分析、機械学習、アプリケーション開発のためのデータ

                                          AWS再入門ブログリレー2022 AWS Glue編 | DevelopersIO
                                        • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

                                          AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

                                            AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
                                          • AWS Glue visual ETL now supports new native Amazon Redshift capabilities

                                            AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-load (ETL) interface that helps ETL developers to author, run, and monitor A

                                              AWS Glue visual ETL now supports new native Amazon Redshift capabilities
                                            • ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog

                                              KAKEHASHI の、Musubi Insight チームのエンジニアの横田です。 KAKEHASHI では BI ツールの Musubi Insight という Web アプリケーションを提供しています。 BI ツールでは薬剤師さんの業務データを可視化しておりますが、そのデータの集計処理には AWS Glue を使っています。 今年 AWS Glue 3.0が使えるようになり、できることが増えました。 チームのデータ基盤の概要と、AWS Glue 3.0 になって新たに使えるようになった PySpark の関数をいくつか紹介していきます。 Musubi Insight チームでの AWS Glue の利用について まず、簡単にデータ基盤の概要について紹介します。 弊社では AWS を利用しサービスを提供しているのですが、各サービスで作られたデータは S3 上に集まってくるようになってい

                                                ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog
                                              • [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開 | Amazon Web Services

                                                Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開 先日 (2021/03/30) 開催しました AWS Black Belt Online Seminar「AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. S3 経由で PostgreSQL Database に J

                                                • New book published: Serverless ETL and Analytics with AWS Glue

                                                  Want to learn how to integrate different data sources and build data platform on AWS? Here’s a new book for you! Serverless ETL and Analytics with AWS GlueWe are happy to publish the new book today! Fortunately I had an opportunity to co-author a book about AWS Glue with five talented engineers; Vishal, Subramanya, Tom, Albert, and Ishan, and publish this book with Packt. This book is the only one

                                                    New book published: Serverless ETL and Analytics with AWS Glue
                                                  • Improve query performance using AWS Glue partition indexes | Amazon Web Services

                                                    AWS Big Data Blog Improve query performance using AWS Glue partition indexes While creating data lakes on the cloud, the data catalog is crucial to centralize metadata and make the data visible, searchable, and queryable for users. With the recent exponential growth of data volume, it becomes much more important to optimize data layout and maintain the metadata on cloud storage to keep the value o

                                                      Improve query performance using AWS Glue partition indexes | Amazon Web Services
                                                    • テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行 | Amazon Web Services

                                                      Amazon Web Services ブログ テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行 本記事は Amazon Web Services, Senior Analytics Specialist Solutions Architect である Fabrizio Napolitano によって投稿されたものです。 データレイクは、クラウドに構築すると有利になることがあります。セキュリティ、デプロイ時間の短縮、可用性、頻繁な機能の更新、弾力性、地理的に広範囲なサービス展開、および使った分だけ発生するコストが理由です。ところが、最近の Gartner や Harvard Business Review の調査によると、マルチクラウドやインタークラウド・アーキテクチ

                                                        テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行 | Amazon Web Services
                                                      • Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes | Amazon Web Services

                                                        AWS Big Data Blog Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes The AWS Glue Data Catalog provides partition indexes to accelerate queries on highly partitioned tables. In the post Improve query performance using AWS Glue partition indexes, we demonstrated how partition indexes reduce the time it takes to fetch partition information during the planning phase

                                                          Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes | Amazon Web Services
                                                        • [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO

                                                          新たにリリースされた「Glue Version 2.0」では、Sparkジョブの開始時間が10倍速く、最低10分ではなく最低1分の1秒単位で請求になります。インタラクティブなマイクロバッチをより素早くコスト効率よく実行できるようになりました。さらに新しいPythonモジュールの追加・更新、Pythonパッケージインストーラー(pip3)を使用して追加のモジュールをインストールもサポートされました。 本日は、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみます。 AWSJ亀田さんの記事ですが、「世界の亀田さん」なので、執筆時点では英語のみです。 新しい Glue Version 2.0 - Spark ETL ジョブ Glue Version 2.0 - Spark ETL ジョブの選択 Spark ETL ジョブでは、新しいSaprk 2.

                                                            [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO
                                                          • AWS Glue で使えるようになった Git 統合機能を使ってみた | DevelopersIO

                                                            いわさです。 先日のアップデートで AWS Glue に Git 統合機能が追加されました。 これによって何が出来るようになっているのかを確認したいと思います。 ジョブ作成画面でバージョン管理設定を行えるように まず、ジョブ作成画面に Version Control タブが追加されておりここで Git 統合先の構成を行うことが出来ます。 本日時点では Git サービスプロバイダとして AWS Code Commit と GitHub の 2 つから選択出来ます。 今回は主に CodeCommit で試してみます。 使い方は概ね同じです。 最後に少し GitHub も使っているので違う点はそちらで紹介します。 Git 統合構成を行う 設定にあたってリポジトリとブランチが必須設定項目なので先に CodeCommit でリポジトリと適当なブランチを作成しておきます。 ここではルートに適当な Re

                                                              AWS Glue で使えるようになった Git 統合機能を使ってみた | DevelopersIO
                                                            • AWS上でログを収集[S3]→加工[Glue]→閲覧[Athena]してみた!

                                                              この記事はAWS for Games Advent Calendar 2022の25日目の記事です。 皆さんはログの扱いに慣れておりますでしょうか? 必要なログは全て綺麗に ETL していつでもばっちり見れる状態です! となっていればどんなに良いことか、、中々後回しにされがちな部分かと思います。弊社でも様々なゲームが平行稼働している中、 大量のログがローテートされてサーバから消えていく タイトル別でうまくいい感じに一か所で管理したい 何かインシデントが起きた時、急いでいる時にサーバに SSH してログを漁りたくない さっと見れるようにしたい みたいな話がありつつも、中々手を付けられずにいました(主に syslog 周り)。今回 AWS さんの協力もあり、技術取得の一環で検証をスタートしてみました。「ログを S3 に集めて、 Glue でなんやかんや加工してみて、 Athena でいい感じに

                                                                AWS上でログを収集[S3]→加工[Glue]→閲覧[Athena]してみた!
                                                              • AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ

                                                                はじめにこんにちは。TIGの藤田です。 Python連載 の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます! 特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。 内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を

                                                                  AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
                                                                • AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始 | Amazon Web Services

                                                                  Amazon Web Services ブログ AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始 AWS Glue は、抽出、変換、およびロード (ETL) のためのフルマネージド型のサービスで、これを利用することで分析のためのデータの準備と読み込みが容易になります。Glue は「サーバーレス」です。リソースをプロビジョニングしたり管理したりする必要はなく、Glue がアクティブに実行されている場合にのみリソースについて支払いを行います。 10 倍速く起動する Spark ETL ジョブを特徴とする AWS Glue バージョン 2.0 の一般提供が開始されました。起動レイテンシーの低減により、全体的なジョブ実行時間が短縮され、マイクロバッチ処理と時間が重要な要素となるワークロードでお客様をサポートし、インタラクティブ

                                                                    AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始 | Amazon Web Services
                                                                  • Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services

                                                                    AWS Big Data Blog Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container Apr 2023: This post was reviewed and updated with enhanced support for Glue 4.0 Streaming jobs. Jan 2023: This post was reviewed and updated with enhanced support for Glue 3.0 Streaming jobs, ARM64, and Glue 4.0. AWS Glue is a fully managed serverless service that allows you to process data coming

                                                                      Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services
                                                                    • Glue Schema Registry の導入を断念した話

                                                                      業務で AWS Glue Schema Registry を使おうとしたけど、やっぱりやめたというお話。 Glue Schema Registry#What’s Schema Registry?#AWS Glue Schema Registry は2020年に発表された AWS の機能だ。 Control the evolution of data streams using the AWS Glue Schema Registry一方、私が最初に schema registry 的なものを見たのは Confluent の例。 Schema Registry の概要 - ConfluentAWS の Glue Schema Registry はこれより後のリリースであり、同等のものの AWS マネージド版といったところだろうか。 schema registry で何ができるかは Confl

                                                                        Glue Schema Registry の導入を断念した話
                                                                      • Super Glue and Baking Soda Miracle! Pour Glue on Baking soda and Amaze With Results

                                                                        Hello everyone! You are watching video "Super Glue and Baking Soda Miracle! Pour Glue on Baking soda and Amaze With Results" I hope you enjoy watching my video! ► Subscribe: https://bit.ly/Creationholic On Creation Holic channel, you can learn various inventions, science projects, crafts and DIYs teaching how to reuse or recycle. © Copyright by Creation Holic ☞ Do not Reup #superglue #diy #tipsan

                                                                          Super Glue and Baking Soda Miracle! Pour Glue on Baking soda and Amaze With Results
                                                                        • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

                                                                          こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

                                                                            AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
                                                                          • New – Serverless Streaming ETL with AWS Glue | Amazon Web Services

                                                                            AWS News Blog New – Serverless Streaming ETL with AWS Glue When you have applications in production, you want to understand what is happening, and how the applications are being used. To analyze data, a first approach is a batch processing model: a set of data is collected over a period of time, then run through analytics tools. To be able to react quickly, you can use a streaming model, where dat

                                                                              New – Serverless Streaming ETL with AWS Glue | Amazon Web Services
                                                                            • 月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita

                                                                              Glueの開発エンドポイントとは AWS Glueはデータレイクやビッグデータ系の複数の機能を持ったサービスですが、その主な機能の一つに、サーバレスのSparkとして使えるETLジョブ機能があります。 AWS Glueの開発エンドポイントはこのETLジョブの開発を行うための仕組みです。 GlueのETLジョブはサーバーレスで実行されるSparkなので、ETLスクリプトを投入すればジョブを実行はしてくれるのですが、OSにログオンしたり、デバッグをしながら開発することができません。 開発エンドポイントがあると、Jupyter NotebookやZeppelinでGlueの管理しているSparkにアクセスしてインタラクティブにコードを実行しながら、開発を進めることができます。 図の引用元: https://www.slideshare.net/AmazonWebServicesJapan/aws

                                                                                月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita
                                                                              • S3 ExportされたAuroraのデータをAWS Glueを使ってDBに書き戻す - Akatsuki Hackers Lab | 株式会社アカツキ(Akatsuki Inc.)

                                                                                Amazon AuroraのS3エクスポート機能 AuroraのS3エクスポート機能は、DBクラスターの現在のデータやスナップショットのデータをS3にApache Parquet形式で出力する機能です。 Apache Parquet形式は、スキーマ情報を内包している・列志向で分析用途にも適している・高効率な圧縮が可能・複雑なデータ構造にも対応しているといった特徴を備えたデータ形式です。AthenaやRedshift、あるいはBigQueryへの取り込みに利用することができ、これらを使ったDB内のデータ分析が可能になります。 高効率さについての実験として、試しに手元の64GBのクラスタースナップショットをS3エクスポートしてみたところ、出力されたParquetファイルの合計サイズは約4GBと、なんと1/16にも圧縮されました。特に毎日何TBもの大容量データをリージョン外に転送するようなケース

                                                                                  S3 ExportされたAuroraのデータをAWS Glueを使ってDBに書き戻す - Akatsuki Hackers Lab | 株式会社アカツキ(Akatsuki Inc.)
                                                                                • AWS Glueで作成したスキーマのtimestamp 型でハマった件 | TECHSCORE BLOG | TECHSCORE BLOG

                                                                                  こんにちは。梶原です。 これは TECHSCORE Advent Calendar 2018 の8日目の記事です。 AWS Glue 東京リージョンでの利用開始から早や1年。 動かしてみないことには内容の理解も追いつかないだろうとは思うものの、何から手を付ければ良いものか。手頃なとっかかりが無いかと途方に暮れておりましたところ、社内の AWS 通からやってみたらと教えてもらったのがデータ分析基盤を作るというものでした。 ありがたい、是非やります、やらせてくださいーーー(><) で、見事にハマったのです。エラーが起きて「さぁ乗り越えてみろ」と立ちはだかりました。 今回のブログでは Glue で作成したスキーマを Amazon Athena から timestamp 型でひたすらクエリを実行する内容でお届けします。 目次 環境と前提条件 あるべきフォーマットは謎。AWS 公式ドキュメントでは触

                                                                                    AWS Glueで作成したスキーマのtimestamp 型でハマった件 | TECHSCORE BLOG | TECHSCORE BLOG

                                                                                  新着記事