[B! etl] Makotsのブックマーク

AWSが提唱するゼロETLとは何か？概念と登場の背景の推察 - NRIネットコムBlog

こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。データ分析とETLの現状と課題ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか？単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて

Makots 2023/03/02

リンク

なぜETLではなくELTが流行ってきたのか - Qiita

概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます！（みんなも参加してね）データ分析やデータエンジニアリングにおいてETL(Extract Transf orm Load)という言葉を耳にしたことがある方は多いのではないでしょうか？一方、「ETLではなくELT（音楽グループではない）が主流になりつつある」といったような論調も増えてきました。この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか（予想）について、私なりの見解を書いてみようと思います。一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

Makots 2022/12/06

リンク

AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services

Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、

Makots 2021/05/08

リンク

PythonでApache beam 入門

2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。興味が湧いたモチベーションとしては、データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列

Makots 2020/12/26

リンク

Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ

JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke（しんよーく）です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます！まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ

Makots 2020/12/20

リンク

一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog

一休のデータサイエンス部に所属しています小島です。以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。一休のデータフローをAirflowを使って実行してみる一休のETLの現状について一休のETL周りは以下の画像のようになっていました。課題 ETLの処理時間が伸びた（出社後も処理が続いていた）エラーのリカバリ作業に時間がかかる（ログが確認しにくい, サーバーに入って作業しなければいけない）複雑な依存関係の定義がしにくい（どれとどれが依存しているかわからない）リソース負荷（全て並列で実行していた）処理毎のボトルネックが把握できないツールの問題というよりは正し

Makots 2018/06/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

etlに関するMakotsのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス