[B! bigquery] tjmtmmnkのブックマーク

BigQuery Data Transfer Serviceを利用して楽々データELT基盤作成

概要こんにちは！ SREユニットの栗山(@sheepland)です。スタディストでは、DBのデータをBigQueryに転送するデータELT基盤が存在します。そのデータELT基盤をAWSの「Amazon S3 への DB スナップショットデータのエクスポート」機能と GCPの「BigQuery Data Transfer Service」および「スケジュールクエリ」を組み合わせて新しく作り直しました。マネージドサービスで構成されているため運用が非常に楽で、転送速度も速く、とてもQOLがあがったので今回紹介したいと思います。 Photo by David Becker on Unsplash旧データETL基盤の紹介旧データETL基盤はEC2上でDigDagとEmbulkを動かし、DBのデータをBigQueryに転送していました。以下が日次の処理の流れです。 RDSの自動スナップショッ

tjmtmmnk 2024/02/16

bigquery

リンク

GoでSQLの複雑なクエリのテストを書いてみた - ZOZO TECH BLOG

はじめにこんにちは。ブランドソリューション開発本部FAANSバックエンドブロックの佐野です。普段はサーバーサイドエンジニアとして、FAANSのバックエンドシステムを開発しています。 FAANSとは、弊社が2022年8月に正式ローンチした、アパレル店舗で働くショップスタッフの販売サポートツールです。例えば、コーディネート投稿機能や成果確認機能などを備えています。投稿されたコーディネートはZOZOTOWNやWEAR、Yahoo!ショッピング、ブランド様のECサイトへの連携が可能です。成果確認機能では、投稿されたコーディネート経由のEC売上やコーディネート閲覧数などの成果を可視化しています。本記事では、成果データの集計処理におけるBigQueryのクエリ実行処理のユニットテストをGoで実装した取り組みと、その際の工夫についてご紹介します。目次はじめに目次成果データの集計処理とは抱え

tjmtmmnk 2023/10/14

bigquery

リンク

Demystifying BigQuery BI Engine | Google Cloud Blog

tjmtmmnk 2023/10/04

BigQuery

リンク

BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG

こんにちは、データ基盤の開発・運用をしている谷口（case-k）です。本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。ポリシータグとはポリシータグを採用した理由匿名化による機密性の高さ機密性と利便性の両立データ基盤を保守運用しやすい秘密情報をテーブルに新規追加しやすい秘密情報の権限管理がしやすいポリシータグを活用したデータ連携の仕組み利用者が参照するデータ連携後のテーブル 2つのデータ連携基盤日次データ連携基盤基幹DBからBigQuery(Private)へのロード BigQuery公開環境への書き込みリアルタイムデータ連携基盤 BigQueryロード前にマスクしたカラムを追加 BigQueryへのストリーミング

tjmtmmnk 2023/09/28

BigQuery

リンク

BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった社内で他の方が使うケースをぼちぼち見ることがある自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間ですさすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきたそもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしましたというわけで、

tjmtmmnk 2023/09/02

bigquery

リンク

BigQueryの料金体系(BigQuery Editions)を徹底解説 - G-gen Tech Blog

G-genの杉村です。Google Cloud (旧称 GCP) のフルマネージドなデータウェアハウスサービスである BigQuery の新しい料金体系「BigQuery Editions」が 2023年3月29日に発表され、2023年7月5日に施行されました。当記事ではその仕組みと、従来の料金体系との違いなどについて解説します。概要新しい価格体系何が変わるか値上げか、値下げか当記事での解説 Physical storage 圧縮後データに対する課金制約 Active と Long-term タイムトラベル・フェイルセーフへの課金単価の違いと圧縮率単価の違い圧縮率の例 Physical storage への移行 BigQuery Editions BigQuery Editions とは 3つのエディション・料金表クエリがプロジェクトをまたぐ場合いつ Editions

tjmtmmnk 2023/08/23

JOBS viewとJOBS_TIMELINE viewの違いにも触れられていて詳しい

BigQuery

リンク

Monitoring resource usage in a cloud data warehouse | Google Cloud Blog

Marco TranquillinCustomer Engineering Manager for Data Analytics Google BigQuery is a fully managed serverless solution for your enterprise data warehouse workloads. Nothing could be easier than that: Just upload your data via batch or streaming and start running your queries. The underlying system will seamlessly take care of providing the infrastructural resources needed to complete your differe

tjmtmmnk 2023/08/16

BigQuery

リンク

【コスト最適化】BigQuery Editions などの解説と見積もり方法

2023 年度の Google Data Cloud & AI Summit にて BigQuery に対する超有益なアップデートが発表されました！価格体系の変更について、有効的に活用すればコストの最適化ができるものになります。ヘビーユーザーは当然のこと、ライトユーザーやこれから検証のために少し触ってみたいような方々に向け、おさらいも交えながら説明をさせていただきたいと思います。また、弊社内で実際に利用している BigQuery のデータセットに対し、この変更でコストがどのように最適化できるのかも紹介させていただきます。価格体系の変更まずは、おさらいとして BigQuery の価格体系を解説します。 BigQuery のアーキテクチャはストレージとコンピューティングに分離されています。伴って、BigQuery の料金は、Storage pricing (ストレージ料金)と呼ばれるス

tjmtmmnk 2023/08/16

bigquery

リンク

BigQuery上のデータマートをクラスタ化したらクエリコストが９割カットできた話 - エムスリーテックブログ

こんにちは、エンジニアリンググループ、データ基盤チームの木田です。最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。この記事は【データ基盤チームブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに費用最適化のアプローチクラスタ化テーブルとはクラスタ化テーブルの作成方法実際に速く・安くなるのか複合キーによるクラスタリングクラス

tjmtmmnk 2023/07/21

bigquery

リンク

Datastream for BigQuery を本番導入しようとしている話

オープンロジという物流テック企業でエンジニアをやっている阿部です。オープンロジではデータ基盤の整備を進めており、その第一弾として Datastream for BigQuery を本番導入しようとしています。導入の経緯や、これまでに調査して分かったコトなどを書いていきたいと思います。トリッキーな挙動になることもありますが、総じて非常に優れたマネージドサービスです。RDB と BigQuery を同期する仕組みとしては、かなり優秀です。まだ、本格的な稼働はしていませんが、いずれオープンロジのデータ基盤の中核を担うシステムになると思っています。 Datastream for BigQuery とは？ MySQL, PostgreSQL などのリレーショナルデータベース (RDB) から BigQuery に準リアルタイムでデータを同期する Google Cloud のサービスです。RDB が

tjmtmmnk 2023/07/11

リンク

GoによるSQLクエリテストの取り組み | メルカリエンジニアリング

この記事は、Merpay Tech Openness Month 2023 の1日目の記事です。背景メルペイのバックエンドエンジニアのa-r-g-vとsminamotです。私達はメルペイ加盟店の管理システムを開発しているチームに所属しています。私達のチームには、複雑な条件を持つBigQueryのSQLクエリがいくつか存在しています。例えば、加盟店管理に関する費用計算などの計算クエリのように、外部環境の変化によって要件が定期的に変更され、マイクロサービス化などのシステム化が難しいクエリがあります。このようなクエリは複雑であるだけでなく、テスタビリティにも問題がありました。そのため、開発者がテストを実施することが困難になっており、クエリの変更を安心して行うことができない状態にありました。クエリの複雑性抽出条件の複雑さと複数のマイクロサービスへの依存により、クエリが複雑になっていました。

tjmtmmnk 2023/06/06

bigquery

リンク

Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表

Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表 Google Cloudは、AWSやMicrosoft Azureなど競合他社のクラウドに10Gbpsもしくは100Gbpsの高速な専用回線を通じてインターコネクト可能なネットワークサービス「Cross-Cloud Interconnect」を発表しました。 Seamless #multicloud connectivity is here. Our new Cross-Cloud Interconnect lets you connect any public cloud with Google Cloud through our secure, high-bandwidth global network. pic.twi

tjmtmmnk 2023/06/06

bigquery

リンク

BigQueryへEmbulkで転送するバッチ処理を改善した話 - High Link テックブログ

はじめにこんにちは, 基盤開発チームの奥山(okue)です. High Link では, BigQuery を活用してデータの分析や可視化, 機械学習への活用を行っています. アプリケーション DB の BigQuery へ転送には, AWS ECS Fargate + Embulk という構成でバッチ処理を実行していましたが, いくつか運用上の問題点がありました. 本記事では, BigQuery へDBのデータを転送するバッチ処理を, AWS Step Functions + AWS ECS Fargate + Embulk で実装し改善した話をします. 改善前の構成と問題点構成改善前のバッチ処理は下図のような構成でした. AWS RDS MySQL には 60個以上のテーブルがありますが, それらを BigQuery へ転送する処理を1つの ECS Task で実行していました.

tjmtmmnk 2023/03/23

bigquery

リンク

Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

こんにちは、エムスリーエンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。これはエムスリー Advent Calendar 2020 の19日目の記事です。エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです（勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!） www.youtube.com これに関連して私のチームでも最近「データ基盤（Digdag + Embulk）のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。エムスリーのデータ基盤についてそれまでの構成クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する併

tjmtmmnk 2023/03/23

bigquery

リンク

MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog

おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

tjmtmmnk 2021/10/26

bigquery

リンク

数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング

SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。本記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。背景当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQL DBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。課題メルカリでは販売済み商品を物理削除していないため、

tjmtmmnk 2020/06/28

bigquery

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

bigqueryに関するtjmtmmnkのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス