『みんなの考えた最強のデータ基盤アーキテクチャ2024前半おまとめ拡大版SP!』の発表資料です。 https://datatech-jp.connpass.com/event/319827/
『みんなの考えた最強のデータ基盤アーキテクチャ2024前半おまとめ拡大版SP!』の発表資料です。 https://datatech-jp.connpass.com/event/319827/
技術部データ基盤チームに所属しているまつもとです。ペパボではGoogle Cloud Platform(以下 GCP)をメインで利用した社内データ活用基盤「Bigfoot」を開発・運用しています。BigfootはBigQueryによるデータウェアハウス・データマートを各部署へ提供することが大きな役割となっています。BigQueryへのETLはGCPのワークフローオーケストレーションサービスであるCloud Composerによって構成しています。データのExtractとLoadは基本的にEmbulkとStitchを利用していますが、対応していないデータソースについてはPythonでExtractとLoadのコードを個別に実装しています。 新たなデータソースに対応するために都度ETLを実装するのは非効率であるため、最近急速に対応データソースの数を増やしているOSSのETLシステム Airby
Airbyteとは OSSのETLツールでGUIも提供している。 データ取得元はMySQL、Salesforce、Marketo、Google Analyticsなど デフォルトである程度のコネクタが用意されている。 データ配置先もBigqueryやsnowfrakeなどのクラウドDWH系にも接続も可能。 有償版も存在する。 特徴 ツール自体が、dockerのコンテナとして稼働する。 未対応のコネクタなどは、カスタムコネクタとして自ら作成可能。 コネクタはすべて個別のdockerコンテナとして取り扱われる。 ETLの流れ Extract(抽出)→Load(読込)→Transform(変換)の流れ。 データ配置先の形式に合わせるためのデータ変換は最後に実施する。 コネクタ種類 以下にデフォルトで対応。 結構豊富。 データ取得元コネクタ Amazon Seller Partner Amp
これは エムスリー Advent Calendar 2020 の15日目の記事です。 前日は id:Hi_king による、臨床AIはなにができ、何が難しいか: 臨床AI研究開発の3類型 でした。 エムスリーエンジニアリンググループ AI・機械学習チームの笹川です。 趣味はバスケと、筋トレで、このところはNBAのプレシーズンが始まってワクワクしているところです。 今回は、弊社のデータ基盤であるBigQueryへのデータ連携の監視のための便利ツールである tblmonit を開発したので、紹介したいと思います。 github.com 寒くなってきて、ブランケットにくるまって鼻だけ出してる犬氏(かわいい) エムスリーのBigQueryの概要 テーブルの更新時間の監視 テーブルメタデータ監視ツール tblmonit おまけ まとめ We are hiring! エムスリーのBigQueryの概要
はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat
The first and most important step towards developing a powerful machine learning model is acquiring good data. It doesn’t matter if you’re using a simple logistic regression or the fanciest state-of-the-art neural network to make predictions: If you don’t have rich input, your model will be garbage in, garbage out. This exposes an unfortunate truth that every hopeful, young data scientist has to c
Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。 現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo
レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~自然言語処理機械学習名寄せデータクレンジング Introduction 皆様、"Enitity Matching""Deduplication"したことありますか? おそらく多くのエンジニアの方は、 なんじゃいって感じになるかと思います。 しかし簡単に言えば、テーブル内・テーブル間のレコードの名寄せです。 多くの人が経験したことがあるでしょう。 一言に言うと、表記ゆれとかあっても"fuzzyにjoin/distinct"する事です。 SQLのJOINで扱えるレベルなら、簡単です。 しかし表記ゆれや誤りを考慮に入れた途端、厄介になります。 今回はそんな名寄せについて自動化・省力化するために、 まずその概要をまとめました。 Notice 概要です。各論は個別記事を追加
Apache Stormコミュニティは5月30日、分散処理システム「Apache Storm 2.0.0」を公開した。約3年ぶりのメジャーリリースとなり、コア機能をJavaで書き直すことで性能を改善したという。 Apache Stormは分散型ストリーミング処理のためのフレームワーク。ClojureとJavaで実装されており、高速、拡張性、信頼性、リアルタイム性などを特徴とする。任意のキューシステム、データベースと統合でき、リアルタイム分析、オンライン機械学習、分散型RPC、ETLなどさまざまな用途に利用できるとしている。 Storm 2.0は、2016年に公開されたバージョン1.0に続く最新版となる。 これまでコア機能の多くがClojureで実装されていたが、2.0ではこれを再構築し、Javaで実装した。これにより性能が大きく改善し、内部APIのメンテナンス性や拡張性も強化できるという。
AWS Big Data Blog Orchestrate multiple ETL jobs using AWS Step Functions and AWS Lambda Extract, transform, and load (ETL) operations collectively form the backbone of any modern enterprise data lake. It transforms raw data into useful datasets and, ultimately, into actionable insight. An ETL job typically reads data from one or more data sources, applies various transformations to the data, and t
PLAZMA OSS Day: TD Tech Talk 2018
久しぶりのブログになってしまった...こんにちは,野球データサイエンティストです.*1 最近はちゃんとワールドシリーズや日本シリーズを観る余裕ができて野球好きらしい生活できてます.*2 今日は野球の話...ではなく,最近読んだPython本で感動した書籍があるので紹介&簡単な書評を記したいと思います. 今年(2017)の4月に発行された「Pythonではじめるデータラングリング」という書籍です. www.oreilly.co.jp Pythonではじめるデータラングリング ―データの入手、準備、分析、プレゼンテーション 作者: Jacqueline Kazil,Katharine Jarmul,嶋田健志,長尾高弘出版社/メーカー: オライリージャパン発売日: 2017/04/26メディア: 単行本(ソフトカバー)この商品を含むブログを見る 誕生日プレゼントとして友人*3から頂きました,誠に
Lambda allows real-time event processing from various event sources like S3, DynamoDB streams, and Kinesis streams. Events can either be pushed to Lambda through asynchronous or synchronous invokes, or pulled from streams using Lambda's polling logic. Lambda processes streams efficiently by sub-batching records into invocations and processing shards concurrently with retries. Thomson Reuters used
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く