プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。
はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat
これは エムスリー Advent Calendar 2020 の15日目の記事です。 前日は id:Hi_king による、臨床AIはなにができ、何が難しいか: 臨床AI研究開発の3類型 でした。 エムスリーエンジニアリンググループ AI・機械学習チームの笹川です。 趣味はバスケと、筋トレで、このところはNBAのプレシーズンが始まってワクワクしているところです。 今回は、弊社のデータ基盤であるBigQueryへのデータ連携の監視のための便利ツールである tblmonit を開発したので、紹介したいと思います。 github.com 寒くなってきて、ブランケットにくるまって鼻だけ出してる犬氏(かわいい) エムスリーのBigQueryの概要 テーブルの更新時間の監視 テーブルメタデータ監視ツール tblmonit おまけ まとめ We are hiring! エムスリーのBigQueryの概要
以前からPG-Stromのパッケージにpg2arrowというユーティリティを同梱しており、これを使うと、PostgreSQLに投げたクエリからApache Arrow形式のファイルを作成する事ができる。 kaigai.hatenablog.com qiita.com 昨年、当初のバージョンを作った時から、内部的には色々ゴチャゴチャ変わっていて*1、Arrow_Fdwとコードを共有するための改良や、RDBMSへの接続に固有の部分だけを別ファイルに切り出すという事をやっていた。 これは、PostgreSQLだけをデータソースにするのではなく、Webアプリやゲームの業界でよく使われる MySQL や、将来的にはNoSQLなどへも簡易に対応できるようにという意味での基礎工事のようなものである。今回はまず、これを MySQL に対応させてみた。 MySQLからWebアプリやゲームのログ情報を Apa
はじめに Bengali.AI Handwritten Grapheme ClassificationというKaggleの画像コンペに参加しました. ベンガル語の書記素(grapheme)が1つ描かれた画像から,その書記素がどのようなクラスに属するかを分類する問題設定で,簡単に言えば少し難しいmnistです. 順位が察し*1だったので解法については差し控えますが,円滑にモデルを生成するためにPipelineを組みました. 「せっかくだから次回以降のコンペでも使えるように抽象的に書こう!!」というモチベーションのもと生まれたスパゲッティ🍝は以下の通りです. github.com この記事では,自戒を込めて,Kaggle用途にPipelineを作成して得られた知見をまとめます. また使用FrameworkがPyTorchなので,一部PyTorchにしか当てはまらないことがあります. あくまで
The first and most important step towards developing a powerful machine learning model is acquiring good data. It doesn’t matter if you’re using a simple logistic regression or the fanciest state-of-the-art neural network to make predictions: If you don’t have rich input, your model will be garbage in, garbage out. This exposes an unfortunate truth that every hopeful, young data scientist has to c
Summary One of the biggest challenges in building reliable platforms for processing event pipelines is managing the underlying infrastructure. At Snowplow Analytics the complexity is compounded by the need to manage multiple instances of their platform across customer environments. In this episode Josh Beemster, the technical operations lead at Snowplow, explains how they manage automation, deploy
ETL (Extract Transform Load)What not to expect from this Blog? Managed ETL solutions like AWS Glue, AWS Data Migration Service or Apache Airflow. Cloud-based techniques are managed but not free. And are not covered in this article. Table of contentsWhat is an ETL pipeline?What are the various use cases of an ETL pipeline?ETL prerequisites — Docker + Debezium + Kafka + Kafka Connect — Bird’s-eye vi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く