Developers Boost(デブスト)【B-4】の発表資料です。 https://event.shoeisha.jp/devboost/20181215/session/1896/ ブログに補足を掲載しました。 https://yuzutas0.hatenablog.com/entry/2018/12/16/230000
こんにちは。去年の今頃は Rust を書いていました。 インフラストラクチャー部データ基盤グループの id:koba789 です。 背景 クックパッドではデータ基盤の DBMS として Amazon Redshift を利用しています。 既存のデータ基盤について詳しいことは クックパッドのデータ活用基盤 - クックパッド開発者ブログ を参照してください。 今まで、ログは数時間に1度、定期実行ジョブで Redshift 内のテーブルにロードしていました。 ロードジョブの実行間隔が "数時間" と長めなのは、Redshift のトランザクションのコミットが遅いためです。 クックパッドでは数百ものログテーブルがあるため、仮に1分おきにすべてを取り込もうとすると秒間数回以上のコミットを行わなければなりません。 このような頻繁なコミットは Redshift 全体のパフォーマンスを悪化させてしまいます
※ Retty Advent Calendar 15日目の記事です おしながき はじめに ベンチャー企業とデータ活用 完璧さよりも早さを重視する Rettyにおける現状 DWHの開発で大切にしていること プロダクトとしてのUXを大事に プロダクトとしての変化を大事に 開発者として横断的な動きを大事に RettyにおけるDWHの開発プラクティス BigQueryを中心としたデータ基盤 アウトプットを最大化するためのダッシュボードツール スプレッドシートによるお手軽ダッシュボード データポータル (Datastudio) データソースのUX/DX データソースの集約化 As-is ではなく As-was 分析者も巻きこみDWHの品質改善を行っていく 技術スタックはSQLを中心とする 仮想テーブル (View) <-> 実テーブル による スキーマのPoC SQLによるView/データソースのユ
インフラ部 & 技術部の青木峰郎です。 クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。 今日はその全体像についてお話ししたいと思います。 データ活用基盤の全体像 まず、以下にクックパッドのデータ活用基盤の全体像を示します。 大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。 入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。 そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。 以下1つずつ説明していきましょう。 入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。 このインポート処理には、つ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く