並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 104件

新着順 人気順

ETLの検索結果1 - 40 件 / 104件

  • なぜETLではなくELTが流行ってきたのか - Qiita

    概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

      なぜETLではなくELTが流行ってきたのか - Qiita
    • AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog

      こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。 データ分析とETLの現状と課題 ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか?単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて

        AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog
      • AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services

        Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。 現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo

          AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services
        • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

          JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

            データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
          • [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022

            Amazon Web Services(AWS)の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。 新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。 新サービス「Amaz

              [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
            • リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

              はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat

                リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
              • AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl

                2021/09/29 AWS Devday Online Japan 2021の登壇資料です

                  AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl
                • [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO

                  先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました! AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのか まず、AWS Glue?ナニソレ?という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL(抽出/変換/ロード)サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。 従来であれば、例え

                    [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO
                  • AWS Glueを使った Serverless ETL の実装パターン

                    本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない?」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法(コーディング、テスト、デプロイ、モニタリングなど)を紹介します。

                      AWS Glueを使った Serverless ETL の実装パターン
                    • Cloud Composer & Dataflow によるバッチETLの再構築 #data_ml_engineering / 20190719

                      データとML周辺エンジニアリングを考える会#2の発表資料です。 https://data-engineering.connpass.com/event/136756/

                        Cloud Composer & Dataflow によるバッチETLの再構築 #data_ml_engineering / 20190719
                      • AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能

                        Amazon Web Services(AWS)は、Aurora MySQLとAmazon Redshiftのあいだでデータをほぼリアルタイムに同期する新サービス「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」(以下、zero-ETL)が正式版となったことを発表しました。 参考:[速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。ze

                          AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能
                        • AWS_ETL_services_tips_202107.pdf

                          • GCPのデータ処理・ETL系サービスの使い分け - Qiita

                            本記事は Classi Advent Calendar 2020 15日目の記事です。 こんにちは。データAI部でデータエンジニアをしている@tomoyanamekawaです。 GCPにはデータ処理関連のサービスが複数あり、「Aにあるデータを加工してBに置きたい」といった処理(ETL処理)の実現方法がGCP内のサービスに限っても様々な選択肢があります。 また、data*といった似た名前のサービスが多く、初見だとわかりづらい部分があります。 そこでそれらサービスの使い分けの参考になればと思ってまとめます。 GCPにあるETL処理関連のサービス紹介 ETL処理に関連するサービスだけでも下記のように複数あります。 Cloud Composer Apache Airflowをベースにしたワークフロー管理サービス。 裏でGKEが立っていてユーザーからクラスターやインスタンスも見えて、少し管理が必要な

                              GCPのデータ処理・ETL系サービスの使い分け - Qiita
                            • Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO

                              こんにちは、クラスメソッドの岡です。 今回Step Functionsを使って簡単なETL処理を試す機会があったので実際に作ったものを公開します。 サーバーレスでETL処理、といえばAWS Glueが浮かぶかと思いますが、今回はGlueは使わず、LambdaのPythonランタイムでPandasを使ってS3のデータとDynamoDBのデータを結合するような処理を行ってみたいと思います。 ちなみに私はデータ分析に関する知識はほぼ皆無ですが、PythonライブラリPandasを使う事で簡単にデータ処理を行えました。 シナリオ 今回はIoTデバイスから送られてくる時系列データがS3に出力されている前提として、そのファイルとDynamoDBにあるデバイスのマスタデータと結合して分析データとして別のS3バケットに出力する、といったシナリオを想定しています。 構成 サンプルコード 今回はServerl

                                Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO
                              • iPaaS といってもいろいろな種類があるので分類してみよう~レシピ型、ETL/ELT、EAI、ESB~ - CData Software Blog

                                iPaaS が話題です。面倒なデータ連携(特にクラウド連携)がノーコードでできて、しかも環境を構築せずにクラウドサービスとして使えるなんて! これはトレンドになるのも当然です。 弊社CData は、クラウドデータ連携の部品を取り扱っているので、「iPaaS をやるために」、「iPaaS っぽい感じで」というお話を伺います。しかしどうやらiPaaS という言葉で思い描くものは大きく異なる気がします。この記事では、iPaaS というワードで誤解が生じないようにカテゴリに分類してみました。 iPaaS といっても得意なこと、苦手なこと、価格感などいろいろな違いがあります。ユーザーの方は「何をやりたいか?」のイメージを持って適切なiPaaS を選ぶことが重要です。またSaaS ベンダーで、これからiPaaS との協業を考えたり、自社でiPaaS 事業を始められる方は、ユースケースや価格感を外さない

                                  iPaaS といってもいろいろな種類があるので分類してみよう~レシピ型、ETL/ELT、EAI、ESB~ - CData Software Blog
                                • SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由

                                  クラウドサービスを使い、サーバーレスでプログラムコードを実行する「FaaS(ファンクション・アズ・ア・サービス)」を構築する企業が相次いでいる。AWS Lambda(ラムダ)に代表されるFaaS基盤のクラウドサービスを利用すれば、開発者は仮想マシンやコンテナなどの実行環境を構築・管理する必要がなくなり、開発のスピードアップに寄与する。コードの実行が終わると必要に応じてITリソースを解放する仕組みなので料金が比較的安く、コスト削減にもつながる。 FaaSの構築はDX(デジタル変革)に向けたシステム開発・改善のスピード向上や、クラウドコスト削減などに欠かせない。SBI生命保険はFaaSによってETL(抽出/変換/ロード)を実装しデータウエアハウス(DWH)システムを構築した。DWHプロジェクトの軌跡を見ていこう。 管理コストや作業負荷をFaaSで解消 「経営の意思決定に必要なデータや分析処理を

                                    SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由
                                  • AWS Glue ETLワークロードをGUIでオーケストレーションする『Workflows』を実際に試してみました | DevelopersIO

                                    AWS Glueは、ワークフローを用いて、クローラ、ジョブ(及びトリガ)の有向非循環グラフ(DAG)を作成して、ETLワークロードをオーケストレーションできるようになりました。AWS Glueが利用可能なすべての地域で利用できるようになりましたので早速試してみます。 Workflowsとは Workflowsの作成 Workflowのシナリオ 新規Workflowの追加 Workflowにエンティティを追加 Workflowの実行 実行結果の管理 制限事項 まとめ AWS Glue now provides workflows to orchestrate your ETL workloads Workflowsとは Workflowsは、既存のクローラ、ジョブ(及びトリガ)をGlueコンソール上のGUIを用いて有向非循環グラフ(DAG)を作成、実行、管理できる新機能です。これからは、クロ

                                      AWS Glue ETLワークロードをGUIでオーケストレーションする『Workflows』を実際に試してみました | DevelopersIO
                                    • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                                      Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                                        [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                                      • LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET

                                        小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 パッケージをアップロード Lambdaのコード エラー対応 参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。 3つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有

                                          LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET
                                        • Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available | Amazon Web Services

                                          AWS News Blog Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available “Data is at the center of every application, process, and business decision,” wrote Swami Sivasubramanian, VP of Database, Analytics, and Machine Learning at AWS, and I couldn’t agree more. A common pattern customers use today is to build data pipelines to move data from Amazon Aurora to Amazon R

                                            Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available | Amazon Web Services
                                          • データエンジニアが最初に学ぶべき3つのポイント:「ETL」「データモデリング」「ワークフロー」 | gihyo.jp

                                            株式会社primeNumberでChief Product Officerを務めている小林寛和と申します。 私は新卒から今までデータエンジニアとしてキャリアを歩んできました。新卒で入った事業会社ではデータ分析基盤の新規構築をリードし、現在ではtroccoというデータエンジニアのためのサービスを立ち上げてプロダクトの責任者を務めています。 キャリアの大半をデータエンジニアとして過ごし、さらに現在ではそれらの方に向けてサービスを提供している立場として、これからデータエンジニアになろうとしている方に最初に学んでほしい3つのポイントをまとめてみました。 なお、本記事では以下のような方を想定しております。 これからデータエンジニアになろうとしている これからデータ分析基盤を新規に立ち上げようとしている データエンジニアリングの必修科目とは データエンジニアリングの必修科目を考えるために、まずはどのよ

                                              データエンジニアが最初に学ぶべき3つのポイント:「ETL」「データモデリング」「ワークフロー」 | gihyo.jp
                                            • AWS announces Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (Public Preview)

                                              Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now available in public preview. This feature enables near real-time analytics and machine learning (ML) on petabytes of transactional data stored in Amazon Aurora MySQL-Compatible Edition. Data written into Aurora is available in Amazon Redshift within seconds, so you can quickly act on it without having to build and maintain comple

                                                AWS announces Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (Public Preview)
                                              • 【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ | Amazon Web Services

                                                Amazon Web Services ブログ 【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ 2021年7月14日に、「AWS で実践!Analytics Modernization ~ETL 編~」というオンラインセミナーを開催しました。昨今、データレイクをクラウド上に作ることが一般的になりつつありますが、データレイクに溜まったデータを活用する際に重要になるのが前処理(ETL)であり、その前処理をどのようにAWS上で実現し、モダン化するかという点を解説しました。 今回このセミナーの動画と資料を公開しましたのでご紹介します。全部で3つのセッションがありますが、各セッションの中も内容単位で区切った動画にしていますので、必要なところだけ見ていただけるようになっています。 セッション1: AWSのETLソリューション紹介(アマゾン ウェブ サー

                                                  【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ | Amazon Web Services
                                                • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                                    【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証
                                                  • Reckoner | ノーコード型ETLツール/データ連携ツール

                                                    SaaSをつなぐ。 業務が変わる。 ビジネスが進化する。 クラウド型データ連携ツール「Reckoner(レコナー)」は、 データの集約・加工・連携をノーコードで誰でも簡単に実行できるクラウドサービスです。 コーディングを行うことなく、ブロックを繋げるような簡単3ステップのマウス操作で、 すばやくラクにデータを連携します。 クラウドだから初期投資や運用負担も大幅削減 現場主導のデータ活用・ データの民主化を実現します kintone、Salesforce、Google BigQuery、カオナビなど、100種以上の多種多様なSaaSと連携可能。データ運用の効率化とデータ活用の高度化を支援します。

                                                      Reckoner | ノーコード型ETLツール/データ連携ツール
                                                    • Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー

                                                      Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー Amazon Web Services(AWS)は、Amazon Aurora MySQLのデータをAmazon Redshiftにニアリアルタイムで同期させる新サービス「 Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」(以下、ゼロETL)をパブリックプレビューとして提供開始したことを発表しました。 東京リージョンでも利用可能となっています。 OLTPのデータをほぼリアルタイムに分析可能に Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデ

                                                        Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー
                                                      • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

                                                        AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

                                                          AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
                                                        • 大手重機メーカーも予防保守で活用、「ETLの欠点をカバーできる」データ仮想化とは

                                                          大手重機メーカーも予防保守で活用、「ETLの欠点をカバーできる」データ仮想化とは:Denodo Technologiesが日本での活動を本格化 データ仮想化のDenodo Technologiesが、日本における活動を本格化している。ETLに代えてデータ統合に使え、複数データソースをクラウド移行やマルチクラウド利用、IoTソリューションの構築を容易にするという。同社チーフマーケティングオフィサーのラヴィ・シャンカール氏は、大手重機メーカーがIoTによる予防保守サービスに活用している事例もあると話す。 データ仮想化のDenodo Technologiesが、日本における活動を本格化している。ETLに代えてデータ統合に使え、複数データソースをクラウド移行やマルチクラウド利用、IoTソリューションの構築を容易にするという。同社チーフマーケティングオフィサーのラヴィ・シャンカール氏は、大手重機メー

                                                            大手重機メーカーも予防保守で活用、「ETLの欠点をカバーできる」データ仮想化とは
                                                          • 和泉伊織(2代目) on Twitter: "@RyuichiYoneyama いいえ、なりません。 『県知事が出会い系サイトで知り合った女子大生と金銭のやりとりを伴う男女関係にあった』と全国で報道された事が過去に有りましたが、「県知事は皆 売春する」という県知事差別は起きて… https://t.co/eTL9fJy7vn"

                                                            @RyuichiYoneyama いいえ、なりません。 『県知事が出会い系サイトで知り合った女子大生と金銭のやりとりを伴う男女関係にあった』と全国で報道された事が過去に有りましたが、「県知事は皆 売春する」という県知事差別は起きて… https://t.co/eTL9fJy7vn

                                                              和泉伊織(2代目) on Twitter: "@RyuichiYoneyama いいえ、なりません。 『県知事が出会い系サイトで知り合った女子大生と金銭のやりとりを伴う男女関係にあった』と全国で報道された事が過去に有りましたが、「県知事は皆 売春する」という県知事差別は起きて… https://t.co/eTL9fJy7vn"
                                                            • AWS Glue visual ETL now supports new native Amazon Redshift capabilities

                                                              AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-load (ETL) interface that helps ETL developers to author, run, and monitor A

                                                                AWS Glue visual ETL now supports new native Amazon Redshift capabilities
                                                              • [速報] Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL が発表されました (Preview) #AWSreInvent | DevelopersIO

                                                                AWS事業本部の森田です。 本日より、Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL がプレビューで利用できるようになりました! ゼロ ETL ゼロ ETLを利用することで、Amazon Redshift から各データベースのデータにアクセスして、ほぼリアルタイムの分析や機械学習が可能となります。 また、「ゼロ」と名前についているように ETL オペレーションを実行する複雑なデータパイプラインの構築なしで上記が実現可能となります。 ゼロ ETL については、昨年の reInvent で発表されたサービスととなっており、Aurora MySQL で一足先に一般提供を開始となっております。 プレビュー対象 以下のデータベース・リージョンで新たにプレビューでの利用

                                                                  [速報] Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL が発表されました (Preview) #AWSreInvent | DevelopersIO
                                                                • ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog

                                                                  KAKEHASHI の、Musubi Insight チームのエンジニアの横田です。 KAKEHASHI では BI ツールの Musubi Insight という Web アプリケーションを提供しています。 BI ツールでは薬剤師さんの業務データを可視化しておりますが、そのデータの集計処理には AWS Glue を使っています。 今年 AWS Glue 3.0が使えるようになり、できることが増えました。 チームのデータ基盤の概要と、AWS Glue 3.0 になって新たに使えるようになった PySpark の関数をいくつか紹介していきます。 Musubi Insight チームでの AWS Glue の利用について まず、簡単にデータ基盤の概要について紹介します。 弊社では AWS を利用しサービスを提供しているのですが、各サービスで作られたデータは S3 上に集まってくるようになってい

                                                                    ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog
                                                                  • New book published: Serverless ETL and Analytics with AWS Glue

                                                                    Want to learn how to integrate different data sources and build data platform on AWS? Here’s a new book for you! Serverless ETL and Analytics with AWS GlueWe are happy to publish the new book today! Fortunately I had an opportunity to co-author a book about AWS Glue with five talented engineers; Vishal, Subramanya, Tom, Albert, and Ishan, and publish this book with Packt. This book is the only one

                                                                      New book published: Serverless ETL and Analytics with AWS Glue
                                                                    • Gabriele Corno on Twitter: "Blossom trees and Fawn in Nara, Japan 🇯🇵 https://t.co/atxOHL0eTL"

                                                                      Blossom trees and Fawn in Nara, Japan 🇯🇵 https://t.co/atxOHL0eTL

                                                                        Gabriele Corno on Twitter: "Blossom trees and Fawn in Nara, Japan 🇯🇵 https://t.co/atxOHL0eTL"
                                                                      • [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO

                                                                        新たにリリースされた「Glue Version 2.0」では、Sparkジョブの開始時間が10倍速く、最低10分ではなく最低1分の1秒単位で請求になります。インタラクティブなマイクロバッチをより素早くコスト効率よく実行できるようになりました。さらに新しいPythonモジュールの追加・更新、Pythonパッケージインストーラー(pip3)を使用して追加のモジュールをインストールもサポートされました。 本日は、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみます。 AWSJ亀田さんの記事ですが、「世界の亀田さん」なので、執筆時点では英語のみです。 新しい Glue Version 2.0 - Spark ETL ジョブ Glue Version 2.0 - Spark ETL ジョブの選択 Spark ETL ジョブでは、新しいSaprk 2.

                                                                          [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO
                                                                        • データ分析基盤におけるETL処理と、AthenaにおけるUpsertの実現方法について - NRIネットコムBlog

                                                                          データ分析基盤を構築する際に、ETL処理は欠かせないものです。ETL処理とは、Extract(抽出)・Transform(変換・加工)・Load(保管)の略で、データが使いやすいように加工する一連の処理を指します。データ分析基盤の構築の中で、実はこのETL処理の開発が一番時間が掛かるといっても過言ではありません。また、一度作ったらお終いではなく、分析する対象・方法が変わるたびに修正を加える必要があります。そのため、ETL処理は人にお任せではなく、自前で作れるようにした方が良いです。 ETLとELT 先程、自分の組織でETL処理を作れるようにするのが大事と言いましたが、そのためにはETL処理を一部の人間ではなく、できるだけ多くの人で修正できるようにすることが大切です。そのため、GUIよりETL処理を行えるようなツールも使うのも選択肢の一つだと思います。それ以外にお勧めとしては、ELT処理とい

                                                                            データ分析基盤におけるETL処理と、AthenaにおけるUpsertの実現方法について - NRIネットコムBlog
                                                                          • 社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ

                                                                            こんにちは、データエンジニアの滑川(@tomoyanamekawa)です。 Classiでは2022年5月に学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリースしました。 この機能のデータ集計は既存の社内用データ基盤からのReverse ETLで実現しました。 そのアーキテクチャの説明と「社内用データ基盤」から「ユーザー影響あるシステムの一部」になったことによる変化について紹介します。 ダッシュボード機能とは 概要 先生のみが利用可能な機能 先生と学年・クラスごとの生徒の利用状況を可視化したダッシュボードを提供する機能 要件・制約 アプリケーションはAWS上で動かす 前日までの利用状況がアプリケーション上で朝8時までに閲覧可能になっていること 学校/学年/クラスごとで集計する 学校を横断した集計はしない 既存の社内用データ基盤とは 社内でのデータ分析を主な用途としているB

                                                                              社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ
                                                                            • Unstructured | The Unstructured Data ETL for Your LLM

                                                                              Unstructured helps you get your data ready for AI by transforming it into a format that large language models can understand. Easily connect your data to LLMs.

                                                                                Unstructured | The Unstructured Data ETL for Your LLM
                                                                              • DynamoDB StreamsとKinesis Data Firehoseを使ったサーバーレスリアルタイムETL - Qiita

                                                                                何を書いた記事か 過去にDynamoDB Streams + Kinesis Data Firehose + Lambdaを用いたリアルタイムETLを検証した際のメモをこちらに転載します。 特にKinesis Data Firehoseの裏で動かすLambdaの実装に癖があったので、誰かの参考になれば幸いです。 前提 Webサービスなど展開していて、Database層にDynamoDBを採択している場合、そのデータを分析するための分析基盤構築手法として、Glueを用いたETLが一般的な選択肢になりうるのかなと思います。 最近DynamoDBのTableをS3にExportできる機能もGAになったので、フルダンプ+日時バッチのデータ分析としてはそのような手法も使えるかもしれません。 しかし、DynamoDB上にあるデータをなるべくリアルタイムに分析基盤に連携したい、最低限のETL処理も挟みた

                                                                                  DynamoDB StreamsとKinesis Data Firehoseを使ったサーバーレスリアルタイムETL - Qiita
                                                                                • Amazon Redshift 用の AWS Step Functions を使用した ETL プロセスのオーケストレーション | Amazon Web Services

                                                                                  Amazon Web Services ブログ Amazon Redshift 用の AWS Step Functions を使用した ETL プロセスのオーケストレーション 現在のデータレイクは、大量の情報を使用可能なデータに変換する抽出、変換、ロード (ETL) 操作をベースとしています。この記事では、AWS Step Functions、AWS Lambda、AWS Batch を緩やかに結合して Amazon Redshift クラスターをターゲットにする ETLオーケストレーションプロセスの実装について詳しく説明します。 Amazon Redshift はカラムナストレージを使用するため、便利な ANSI SQL クエリを使用した迅速な分析的インサイトに最適です。Amazon Redshift クラスターを数分ですばやく増減して、エンドユーザーレポートとデータウェアハウスへのタイ

                                                                                    Amazon Redshift 用の AWS Step Functions を使用した ETL プロセスのオーケストレーション | Amazon Web Services