AWS Glue は他の AWS のサービスを使用して ETL (抽出、変換、ロード) ジョブを調整し、データウェアハウスとデータレイクを構築して、出力ストリームを生成します。AWS Glue は API オペレーションを呼び出して、データの変換、ランタイムログの作成、ジョブロジックの保存を行い、ジョブ実行のモニタリングに役立つ通知を作成します。AWS Glue コンソールはこれらのサービスを管理アプリケーションに接続して、お客様が ETL ワークの作成とモニタリングに集中できるようにします。管理およびジョブ開発のオペレーションは、コンソールがお客様に代わって実行します。データソースへのアクセスとデータターゲットへの書き込みを行うために必要な、認証情報と他のプロパティは、お客様が AWS Glue に提供する必要があります。 AWS Glue は、ワークロードを実行するために必要なリソース
一致するレコードを特定するカスタム機械学習変換である、新しい FindMatches ML 変換を使用して、AWS Glue でデータセット (識別子のないものを含む) 全体から、一致するレコードを検索できるようになりました。FindMatches 変換を Glue ETL ジョブに追加することにより、関連する製品、場所、サプライヤー、顧客などを見つけることができます。 また、FindMatches 変換を使用して、重複排除を行うこともできます。例えば、複数回サインアップした顧客や、誤って製品カタログに複数回追加された製品などを特定できます。FindMatches ML 変換に、例を使用して「重複」の定義を教えておくことで、機械学習を使用してデータセット内の重複している可能性があるレコードを特定できます。 AWS Glue ML 変換は、まず米国東部 (バージニア北部)、米国東部 (オハイ
こいつに入門します。 一言でいうと… マネージドETLサービスです。 ETLとは「Extract/Transform/Load」の略で、分析用に様々なデータを集める際に発生する「取り出す/変換する/取り込む」というプロセスを表しています。 Glueとは「糊」のことで、ETLにおいてAWSのリソースとリソースを繋ぐことの比喩になっているようです。 ※ややこしいですがDevOps Guruというサービスも最近出現しています。このGuruは「賢者」を表す別単語で、機械学習を活用した賢いサービスを比喩しているものと思われます。 Glueの概念図 データソースから取り込んだデータをETLジョブで加工し、ターゲットに格納して分析などに利用します。 Glueのコンポーネント データカタログ ETL処理をしたいデータのメタデータを管理するもの。元データ(データソース)からGlueのクローラーで抽出してきた
AWS Glue 接続は、特定のデータストアのログイン認証情報、URI 文字列、仮想プライベートクラウド (VPC) 情報などを保存するデータカタログオブジェクトです。AWS Glue クローラー、ジョブ、および開発エンドポイントは、特定のタイプのデータストアにアクセスするために接続を使用します。ソースとターゲットの両方に接続を使用したり、複数のクローラーまたは抽出、変換、ロード (ETL) ジョブで同じ接続を再利用したりできます。 AWS Glue 接続スキーマの最新バージョンでは、AWS Glue、Amazon Athena、Amazon SageMaker AI Unified Studio などの AWS サービスとアプリケーションとの間のデータ接続を統一された方法で管理できます。 コネクタと接続の使用に関する概要 接続には、特定のデータストアに接続するために必要なプロパティが含ま
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 での Spark ジョブのジョブプロパティの設定 AWS Glue AWS Glue ジョブには、ソースデータに接続して処理し、データターゲットに書き出すスクリプトがカプセル化されています。通常、ジョブは、抽出、変換、ロード (ETL) スクリプトを実行します。ジョブでは、汎用 Python スクリプト (Python シェルジョブ) を実行することもできます。AWS Glue トリガーでは、スケジュールまたはイベントに基づいて、またはオンデマンドでジョブを開始できます。ジョブ実行をモニタリングすると、完了ステータス、継続時間、開始時間などのランタイムメトリクスを知ることができます。 AWS Glue で生成されたスクリプトを使用することも、独自のスクリプトを使用す
1 つのトリガーでアクティブにできるクローラは 2 つだけです。複数のデータストアをクロールする場合は、複数のクローラを同時に実行するのではなく、クローラごとに複数のソースを使用します。 トリガーは作成されると複数の状態のいずれかになります。たとえば、CREATED、ACTIVATED、または DEACTIVATED になります。ACTIVATING などの移行状態もあります。トリガーの起動を一時的に停止するために、トリガーを無効化できます。その後、再度有効化できます。 以下の 3 種類のトリガーがあります。 予定 cron に基づく時間ベースのトリガー。 スケジュールに基づいて、一連のジョブまたはクローラのトリガーを作成できます。ジョブまたはクローラが実行される頻度、実行される曜日、実行される時間などの制約を指定できます。これらの制約は cron に基づいています。トリガーにスケジュール
AWS Glue とはAWSマネージドなETLサービスですが、AWS Glue Databrewというのもあります。このAWS Glue DatabrewはAWS Glueの派生のようなサービスで、少々使い勝手が違います。今回はこのAWS Glue DataBrewを実際に使って解説したいと思います。 はじめに AWS Glue DataBrewとは? AWS Glue DataBrewとAWS Glue Studioの違いは? 実際につかってみた データ データセット作成 プロジェクト作成 レシピ作成 レシピ発行 レシピのインポート ジョブ作成 ジョブ実行 結果を確認してみる まとめ はじめに 以前に下記のようなブログを記載し、AWS Glue データカタログと AWS Glue Studioを利用したETLジョブ作成について紹介しました。AWS Glue Studioはビジュアルでかな
AWS Glue は、分析を行うユーザーが複数のソースからのデータを簡単に検出、準備、移動、統合できるようにするサーバーレスのデータ統合サービスです。分析、機械学習、アプリケーション開発に使用できます。また、ジョブの作成、実行、ビジネスワークフローの実装のための生産性向上に役立つツールやデータ運用ツールも追加されています。 AWS Glue を使用すれば、70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理できます。抽出、変換、ロード(ETL)パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。また、Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用して、カタログ化されたデータをすぐに検索し、クエリできます。 AWS Glue は、主要なデータ統合機能を単一の
質の高い結果を得るためにデータを準備することは、分析または AI プロジェクトの最初のステップです。AWS Glue は、データ統合をよりシンプル、迅速、低コストにするサーバーレスサービスです。100 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理するとともに、データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、データウェアハウス、レイクハウスにロードできます。生成 AI 機能が組み込まれているため、ETL オーサリングと Spark のトラブルシューティングのインテリジェントな支援を活用して、Apache Spark ジョブをモダナイズし、開発を加速できます。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く