並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 100件

新着順 人気順

ETLの検索結果1 - 40 件 / 100件

  • なぜETLではなくELTが流行ってきたのか - Qiita

    概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

      なぜETLではなくELTが流行ってきたのか - Qiita
    • AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog

      こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。 データ分析とETLの現状と課題 ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか?単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて

        AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog
      • AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services

        Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。 現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo

          AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services
        • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

          JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

            データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
          • [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022

            Amazon Web Services(AWS)の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。 新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。 新サービス「Amaz

              [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
            • リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

              はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat

                リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
              • AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl

                2021/09/29 AWS Devday Online Japan 2021の登壇資料です

                  AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl
                • [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO

                  先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました! AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのか まず、AWS Glue?ナニソレ?という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL(抽出/変換/ロード)サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。 従来であれば、例え

                    [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO
                  • AWS Glueを使った Serverless ETL の実装パターン

                    本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない?」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法(コーディング、テスト、デプロイ、モニタリングなど)を紹介します。

                      AWS Glueを使った Serverless ETL の実装パターン
                    • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                      こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                        LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                      • AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能

                        Amazon Web Services(AWS)は、Aurora MySQLとAmazon Redshiftのあいだでデータをほぼリアルタイムに同期する新サービス「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」(以下、zero-ETL)が正式版となったことを発表しました。 参考:[速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。ze

                          AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能
                        • AWS_ETL_services_tips_202107.pdf

                          • GCPのデータ処理・ETL系サービスの使い分け - Qiita

                            本記事は Classi Advent Calendar 2020 15日目の記事です。 こんにちは。データAI部でデータエンジニアをしている@tomoyanamekawaです。 GCPにはデータ処理関連のサービスが複数あり、「Aにあるデータを加工してBに置きたい」といった処理(ETL処理)の実現方法がGCP内のサービスに限っても様々な選択肢があります。 また、data*といった似た名前のサービスが多く、初見だとわかりづらい部分があります。 そこでそれらサービスの使い分けの参考になればと思ってまとめます。 GCPにあるETL処理関連のサービス紹介 ETL処理に関連するサービスだけでも下記のように複数あります。 Cloud Composer Apache Airflowをベースにしたワークフロー管理サービス。 裏でGKEが立っていてユーザーからクラスターやインスタンスも見えて、少し管理が必要な

                              GCPのデータ処理・ETL系サービスの使い分け - Qiita
                            • Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO

                              こんにちは、クラスメソッドの岡です。 今回Step Functionsを使って簡単なETL処理を試す機会があったので実際に作ったものを公開します。 サーバーレスでETL処理、といえばAWS Glueが浮かぶかと思いますが、今回はGlueは使わず、LambdaのPythonランタイムでPandasを使ってS3のデータとDynamoDBのデータを結合するような処理を行ってみたいと思います。 ちなみに私はデータ分析に関する知識はほぼ皆無ですが、PythonライブラリPandasを使う事で簡単にデータ処理を行えました。 シナリオ 今回はIoTデバイスから送られてくる時系列データがS3に出力されている前提として、そのファイルとDynamoDBにあるデバイスのマスタデータと結合して分析データとして別のS3バケットに出力する、といったシナリオを想定しています。 構成 サンプルコード 今回はServerl

                                Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO
                              • iPaaS といってもいろいろな種類があるので分類してみよう~レシピ型、ETL/ELT、EAI、ESB~ - CData Software Blog

                                iPaaS が話題です。面倒なデータ連携(特にクラウド連携)がノーコードでできて、しかも環境を構築せずにクラウドサービスとして使えるなんて! これはトレンドになるのも当然です。 弊社CData は、クラウドデータ連携の部品を取り扱っているので、「iPaaS をやるために」、「iPaaS っぽい感じで」というお話を伺います。しかしどうやらiPaaS という言葉で思い描くものは大きく異なる気がします。この記事では、iPaaS というワードで誤解が生じないようにカテゴリに分類してみました。 iPaaS といっても得意なこと、苦手なこと、価格感などいろいろな違いがあります。ユーザーの方は「何をやりたいか?」のイメージを持って適切なiPaaS を選ぶことが重要です。またSaaS ベンダーで、これからiPaaS との協業を考えたり、自社でiPaaS 事業を始められる方は、ユースケースや価格感を外さない

                                  iPaaS といってもいろいろな種類があるので分類してみよう~レシピ型、ETL/ELT、EAI、ESB~ - CData Software Blog
                                • SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由

                                  クラウドサービスを使い、サーバーレスでプログラムコードを実行する「FaaS(ファンクション・アズ・ア・サービス)」を構築する企業が相次いでいる。AWS Lambda(ラムダ)に代表されるFaaS基盤のクラウドサービスを利用すれば、開発者は仮想マシンやコンテナなどの実行環境を構築・管理する必要がなくなり、開発のスピードアップに寄与する。コードの実行が終わると必要に応じてITリソースを解放する仕組みなので料金が比較的安く、コスト削減にもつながる。 FaaSの構築はDX(デジタル変革)に向けたシステム開発・改善のスピード向上や、クラウドコスト削減などに欠かせない。SBI生命保険はFaaSによってETL(抽出/変換/ロード)を実装しデータウエアハウス(DWH)システムを構築した。DWHプロジェクトの軌跡を見ていこう。 管理コストや作業負荷をFaaSで解消 「経営の意思決定に必要なデータや分析処理を

                                    SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由
                                  • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                                    Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                                      [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                                    • Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available | Amazon Web Services

                                      AWS News Blog Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available “Data is at the center of every application, process, and business decision,” wrote Swami Sivasubramanian, VP of Database, Analytics, and Machine Learning at AWS, and I couldn’t agree more. A common pattern customers use today is to build data pipelines to move data from Amazon Aurora to Amazon R

                                        Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available | Amazon Web Services
                                      • Amazon OpenSearch Service zero-ETL integration with Amazon S3 now available - AWS

                                        Amazon OpenSearch Service zero-ETL integration with Amazon S3 now available Today, AWS announces the general availability of Amazon OpenSearch Service zero-ETL integration with Amazon S3, a new efficient way for customers to query operational logs in Amazon S3 data lakes eliminating the need to switch between tools to analyze data. Customers can quickly get started by installing out-of-the-box das

                                          Amazon OpenSearch Service zero-ETL integration with Amazon S3 now available - AWS
                                        • データエンジニアが最初に学ぶべき3つのポイント:「ETL」「データモデリング」「ワークフロー」 | gihyo.jp

                                          株式会社primeNumberでChief Product Officerを務めている小林寛和と申します。 私は新卒から今までデータエンジニアとしてキャリアを歩んできました。新卒で入った事業会社ではデータ分析基盤の新規構築をリードし、現在ではtroccoというデータエンジニアのためのサービスを立ち上げてプロダクトの責任者を務めています。 キャリアの大半をデータエンジニアとして過ごし、さらに現在ではそれらの方に向けてサービスを提供している立場として、これからデータエンジニアになろうとしている方に最初に学んでほしい3つのポイントをまとめてみました。 なお、本記事では以下のような方を想定しております。 これからデータエンジニアになろうとしている これからデータ分析基盤を新規に立ち上げようとしている データエンジニアリングの必修科目とは データエンジニアリングの必修科目を考えるために、まずはどのよ

                                            データエンジニアが最初に学ぶべき3つのポイント:「ETL」「データモデリング」「ワークフロー」 | gihyo.jp
                                          • AWS announces Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (Public Preview)

                                            Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now available in public preview. This feature enables near real-time analytics and machine learning (ML) on petabytes of transactional data stored in Amazon Aurora MySQL-Compatible Edition. Data written into Aurora is available in Amazon Redshift within seconds, so you can quickly act on it without having to build and maintain comple

                                              AWS announces Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (Public Preview)
                                            • 【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ | Amazon Web Services

                                              Amazon Web Services ブログ 【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ 2021年7月14日に、「AWS で実践!Analytics Modernization ~ETL 編~」というオンラインセミナーを開催しました。昨今、データレイクをクラウド上に作ることが一般的になりつつありますが、データレイクに溜まったデータを活用する際に重要になるのが前処理(ETL)であり、その前処理をどのようにAWS上で実現し、モダン化するかという点を解説しました。 今回このセミナーの動画と資料を公開しましたのでご紹介します。全部で3つのセッションがありますが、各セッションの中も内容単位で区切った動画にしていますので、必要なところだけ見ていただけるようになっています。 セッション1: AWSのETLソリューション紹介(アマゾン ウェブ サー

                                                【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ | Amazon Web Services
                                              • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                                  【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証
                                                • Reckoner | ノーコード型ETLツール/データ連携ツール

                                                  SaaSをつなぐ。 業務が変わる。 ビジネスが進化する。 クラウド型データ連携ツール「Reckoner(レコナー)」は、 データの集約・加工・連携をノーコードで誰でも簡単に実行できるクラウドサービスです。 コーディングを行うことなく、ブロックを繋げるような簡単3ステップのマウス操作で、 すばやくラクにデータを連携します。 クラウドだから初期投資や運用負担も大幅削減 現場主導のデータ活用・ データの民主化を実現します kintone、Salesforce、Google BigQuery、カオナビなど、100種以上の多種多様なSaaSと連携可能。データ運用の効率化とデータ活用の高度化を支援します。

                                                    Reckoner | ノーコード型ETLツール/データ連携ツール
                                                  • Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー

                                                    Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー Amazon Web Services(AWS)は、Amazon Aurora MySQLのデータをAmazon Redshiftにニアリアルタイムで同期させる新サービス「 Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」(以下、ゼロETL)をパブリックプレビューとして提供開始したことを発表しました。 東京リージョンでも利用可能となっています。 OLTPのデータをほぼリアルタイムに分析可能に Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデ

                                                      Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー
                                                    • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

                                                      AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

                                                        AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
                                                      • 和泉伊織(2代目) on Twitter: "@RyuichiYoneyama いいえ、なりません。 『県知事が出会い系サイトで知り合った女子大生と金銭のやりとりを伴う男女関係にあった』と全国で報道された事が過去に有りましたが、「県知事は皆 売春する」という県知事差別は起きて… https://t.co/eTL9fJy7vn"

                                                        @RyuichiYoneyama いいえ、なりません。 『県知事が出会い系サイトで知り合った女子大生と金銭のやりとりを伴う男女関係にあった』と全国で報道された事が過去に有りましたが、「県知事は皆 売春する」という県知事差別は起きて… https://t.co/eTL9fJy7vn

                                                          和泉伊織(2代目) on Twitter: "@RyuichiYoneyama いいえ、なりません。 『県知事が出会い系サイトで知り合った女子大生と金銭のやりとりを伴う男女関係にあった』と全国で報道された事が過去に有りましたが、「県知事は皆 売春する」という県知事差別は起きて… https://t.co/eTL9fJy7vn"
                                                        • AWS Glue visual ETL now supports new native Amazon Redshift capabilities

                                                          AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-load (ETL) interface that helps ETL developers to author, run, and monitor A

                                                            AWS Glue visual ETL now supports new native Amazon Redshift capabilities
                                                          • [速報] Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL が発表されました (Preview) #AWSreInvent | DevelopersIO

                                                            AWS事業本部の森田です。 本日より、Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL がプレビューで利用できるようになりました! ゼロ ETL ゼロ ETLを利用することで、Amazon Redshift から各データベースのデータにアクセスして、ほぼリアルタイムの分析や機械学習が可能となります。 また、「ゼロ」と名前についているように ETL オペレーションを実行する複雑なデータパイプラインの構築なしで上記が実現可能となります。 ゼロ ETL については、昨年の reInvent で発表されたサービスととなっており、Aurora MySQL で一足先に一般提供を開始となっております。 プレビュー対象 以下のデータベース・リージョンで新たにプレビューでの利用

                                                              [速報] Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL が発表されました (Preview) #AWSreInvent | DevelopersIO
                                                            • ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog

                                                              KAKEHASHI の、Musubi Insight チームのエンジニアの横田です。 KAKEHASHI では BI ツールの Musubi Insight という Web アプリケーションを提供しています。 BI ツールでは薬剤師さんの業務データを可視化しておりますが、そのデータの集計処理には AWS Glue を使っています。 今年 AWS Glue 3.0が使えるようになり、できることが増えました。 チームのデータ基盤の概要と、AWS Glue 3.0 になって新たに使えるようになった PySpark の関数をいくつか紹介していきます。 Musubi Insight チームでの AWS Glue の利用について まず、簡単にデータ基盤の概要について紹介します。 弊社では AWS を利用しサービスを提供しているのですが、各サービスで作られたデータは S3 上に集まってくるようになってい

                                                                ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog
                                                              • New book published: Serverless ETL and Analytics with AWS Glue

                                                                Want to learn how to integrate different data sources and build data platform on AWS? Here’s a new book for you! Serverless ETL and Analytics with AWS GlueWe are happy to publish the new book today! Fortunately I had an opportunity to co-author a book about AWS Glue with five talented engineers; Vishal, Subramanya, Tom, Albert, and Ishan, and publish this book with Packt. This book is the only one

                                                                  New book published: Serverless ETL and Analytics with AWS Glue
                                                                • Gabriele Corno on Twitter: "Blossom trees and Fawn in Nara, Japan 🇯🇵 https://t.co/atxOHL0eTL"

                                                                  Blossom trees and Fawn in Nara, Japan 🇯🇵 https://t.co/atxOHL0eTL

                                                                    Gabriele Corno on Twitter: "Blossom trees and Fawn in Nara, Japan 🇯🇵 https://t.co/atxOHL0eTL"
                                                                  • [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO

                                                                    新たにリリースされた「Glue Version 2.0」では、Sparkジョブの開始時間が10倍速く、最低10分ではなく最低1分の1秒単位で請求になります。インタラクティブなマイクロバッチをより素早くコスト効率よく実行できるようになりました。さらに新しいPythonモジュールの追加・更新、Pythonパッケージインストーラー(pip3)を使用して追加のモジュールをインストールもサポートされました。 本日は、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみます。 AWSJ亀田さんの記事ですが、「世界の亀田さん」なので、執筆時点では英語のみです。 新しい Glue Version 2.0 - Spark ETL ジョブ Glue Version 2.0 - Spark ETL ジョブの選択 Spark ETL ジョブでは、新しいSaprk 2.

                                                                      [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO
                                                                    • データ分析基盤におけるETL処理と、AthenaにおけるUpsertの実現方法について - NRIネットコムBlog

                                                                      データ分析基盤を構築する際に、ETL処理は欠かせないものです。ETL処理とは、Extract(抽出)・Transform(変換・加工)・Load(保管)の略で、データが使いやすいように加工する一連の処理を指します。データ分析基盤の構築の中で、実はこのETL処理の開発が一番時間が掛かるといっても過言ではありません。また、一度作ったらお終いではなく、分析する対象・方法が変わるたびに修正を加える必要があります。そのため、ETL処理は人にお任せではなく、自前で作れるようにした方が良いです。 ETLとELT 先程、自分の組織でETL処理を作れるようにするのが大事と言いましたが、そのためにはETL処理を一部の人間ではなく、できるだけ多くの人で修正できるようにすることが大切です。そのため、GUIよりETL処理を行えるようなツールも使うのも選択肢の一つだと思います。それ以外にお勧めとしては、ELT処理とい

                                                                        データ分析基盤におけるETL処理と、AthenaにおけるUpsertの実現方法について - NRIネットコムBlog
                                                                      • 社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ

                                                                        こんにちは、データエンジニアの滑川(@tomoyanamekawa)です。 Classiでは2022年5月に学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリースしました。 この機能のデータ集計は既存の社内用データ基盤からのReverse ETLで実現しました。 そのアーキテクチャの説明と「社内用データ基盤」から「ユーザー影響あるシステムの一部」になったことによる変化について紹介します。 ダッシュボード機能とは 概要 先生のみが利用可能な機能 先生と学年・クラスごとの生徒の利用状況を可視化したダッシュボードを提供する機能 要件・制約 アプリケーションはAWS上で動かす 前日までの利用状況がアプリケーション上で朝8時までに閲覧可能になっていること 学校/学年/クラスごとで集計する 学校を横断した集計はしない 既存の社内用データ基盤とは 社内でのデータ分析を主な用途としているB

                                                                          社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ
                                                                        • Data Ingestion ETL の技術選定の変遷をADRで振り返る / Data Ingestion ETL ADRs at DataOps Night#4

                                                                          DataOps Night#4 https://finatext.connpass.com/event/320643/

                                                                            Data Ingestion ETL の技術選定の変遷をADRで振り返る / Data Ingestion ETL ADRs at DataOps Night#4
                                                                          • Unstructured | The Unstructured Data ETL for Your LLM

                                                                            Unstructured helps you get your data ready for AI by transforming it into a format that large language models can understand. Easily connect your data to LLMs.

                                                                              Unstructured | The Unstructured Data ETL for Your LLM
                                                                            • DynamoDB StreamsとKinesis Data Firehoseを使ったサーバーレスリアルタイムETL - Qiita

                                                                              何を書いた記事か 過去にDynamoDB Streams + Kinesis Data Firehose + Lambdaを用いたリアルタイムETLを検証した際のメモをこちらに転載します。 特にKinesis Data Firehoseの裏で動かすLambdaの実装に癖があったので、誰かの参考になれば幸いです。 前提 Webサービスなど展開していて、Database層にDynamoDBを採択している場合、そのデータを分析するための分析基盤構築手法として、Glueを用いたETLが一般的な選択肢になりうるのかなと思います。 最近DynamoDBのTableをS3にExportできる機能もGAになったので、フルダンプ+日時バッチのデータ分析としてはそのような手法も使えるかもしれません。 しかし、DynamoDB上にあるデータをなるべくリアルタイムに分析基盤に連携したい、最低限のETL処理も挟みた

                                                                                DynamoDB StreamsとKinesis Data Firehoseを使ったサーバーレスリアルタイムETL - Qiita
                                                                              • AWS が Amazon Aurora と Amazon Redshift のゼロ ETL 統合をリリース

                                                                                Amazon Aurora は、Amazon Redshift とのゼロ ETL 統合に対応しました。これにより、Aurora で扱うペタバイト規模のトランザクションデータに対して Amazon Redshift を使用し、ほぼリアルタイムの分析や機械学習 (ML) を実現します。Aurora に書き込まれたトランザクションデータは、数秒以内に Amazon Redshift で利用できます。そのため、複雑なデータパイプラインを構築および維持して抽出、変換、ロード (ETL) 処理を行う必要がありません。 また、このゼロ ETL 統合により、新規または既存の同じ Amazon Redshift インスタンス内にある複数の Aurora データベースクラスターのデータを分析可能です。これにより、多数あるアプリケーションやパーティション全体にわたる総合的なインサイトがもたらされます。トランザク

                                                                                  AWS が Amazon Aurora と Amazon Redshift のゼロ ETL 統合をリリース
                                                                                • Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2 | Amazon Web Services

                                                                                  Amazon Web Services ブログ Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2  このマルチポストシリーズのパート 1、Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1 では、Amazon Redshift Spectrum、同時実行スケーリング、および最近サポートされるようになったデータレイクエクスポートを使用して、データレイクアーキテクチャ用の ELT および ETL データ処理パイプラインを構築するための一般的なお客様のユースケースと設計のベストプラクティスについて説明しました。 この記事では、AWS サンプルデータセットを使用して、Amazon Redshift のいくつかの ETL および ELT デザインパターン

                                                                                    Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2 | Amazon Web Services