プレスリリースご相談窓口
こんにちは、はじめまして。メルカリでデータエンジニアをしている、しゅう (@shoe116)です。Mercari Advent Calendar 2018の3日目を担当することになりました。 メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在しておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりはメルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと一緒に並んでコードを書いている)。今日は僕らがGoogle Cloud Platform(以下GCP)に作っている、メルカリ(とメルペイ)の新しいログ収集基盤について簡単に紹介しようと思います。 メルカリの既存ログ収集基盤について 「新しいログ収集基盤を紹介しようと思います」と書いた数行後にこの章を持ってくるのは自
最近、GCPのサービスとしてdatasreamを知り、結構便利なのでは?と思ったので纏めてみたいと思います。 CDCとは? datasreamはCDCのサービスですが、このCDCは change data capture といい、簡単にデータが変更された差分だけを保存する機能です。何かしらの一意のキーを元に変更されたレコードや新規に追加されたレコードを検出することで、変更分だけのデータを取得します。 具体的には 変更した日付(LAST_UPDATE)やテーブルカラムにバージョンをつけて管理する(VERSION_NUMBER)などですね。 このCDCの概念自体は元から存在していたのですが、デザインパターンレベルだったので利用するためには実際に実装する必要がありました。 Datastream GCPのdatasreamは先ほど述べた通りCDCのサービスなのですが主に以下のメリットがあります。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く