タグ

bigqueryに関するtjmtmmnkのブックマーク (16)

  • BigQuery Data Transfer Serviceを利用して楽々データELT基盤作成

    概要こんにちは! SREユニットの栗山(@sheepland)です。 スタディストでは、DBのデータをBigQueryに転送するデータELT基盤が存在します。 そのデータELT基盤をAWSの「Amazon S3 への DB スナップショットデータのエクスポート」機能 と GCPの「BigQuery Data Transfer Service」および「スケジュールクエリ」を組み合わせて新しく作り直しました。 マネージドサービスで構成されているため運用が非常に楽で、転送速度も速く、とてもQOLがあがったので今回紹介したいと思います。 Photo by David Becker on Unsplash旧データETL基盤の紹介旧データETL基盤はEC2上でDigDagとEmbulkを動かし、DBのデータをBigQueryに転送していました。 以下が日次の処理の流れです。 RDSの自動スナップショッ

    BigQuery Data Transfer Serviceを利用して楽々データELT基盤作成
  • GoでSQLの複雑なクエリのテストを書いてみた - ZOZO TECH BLOG

    はじめに こんにちは。ブランドソリューション開発部FAANSバックエンドブロックの佐野です。普段はサーバーサイドエンジニアとして、FAANSのバックエンドシステムを開発しています。 FAANSとは、弊社が2022年8月に正式ローンチした、アパレル店舗で働くショップスタッフの販売サポートツールです。例えば、コーディネート投稿機能や成果確認機能などを備えています。投稿されたコーディネートはZOZOTOWNやWEAR、Yahoo!ショッピング、ブランド様のECサイトへの連携が可能です。成果確認機能では、投稿されたコーディネート経由のEC売上やコーディネート閲覧数などの成果を可視化しています。 記事では、成果データの集計処理におけるBigQueryのクエリ実行処理のユニットテストをGoで実装した取り組みと、その際の工夫についてご紹介します。 目次 はじめに 目次 成果データの集計処理とは 抱え

    GoでSQLの複雑なクエリのテストを書いてみた - ZOZO TECH BLOG
  • Demystifying BigQuery BI Engine | Google Cloud Blog

  • BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG

    こんにちは、データ基盤の開発・運用をしている谷口(case-k)です。 記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。 ポリシータグとは ポリシータグを採用した理由 匿名化による機密性の高さ 機密性と利便性の両立 データ基盤を保守運用しやすい 秘密情報をテーブルに新規追加しやすい 秘密情報の権限管理がしやすい ポリシータグを活用したデータ連携の仕組み 利用者が参照するデータ連携後のテーブル 2つのデータ連携基盤 日次データ連携基盤 基幹DBからBigQuery(Private)へのロード BigQuery公開環境への書き込み リアルタイムデータ連携基盤 BigQueryロード前にマスクしたカラムを追加 BigQueryへのストリーミング

    BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG
  • BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

    背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった 社内で他の方が使うケースをぼちぼち見ることがある 自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる 著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間です さすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきた そもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしました というわけで、

    BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog
  • BigQueryの料金体系(BigQuery Editions)を徹底解説 - G-gen Tech Blog

    G-genの杉村です。Google Cloud (旧称 GCP) のフルマネージドなデータウェアハウスサービスである BigQuery の新しい料金体系「BigQuery Editions」が 2023年3月29日に発表され、2023年7月5日に施行されました。当記事ではその仕組みと、従来の料金体系との違いなどについて解説します。 概要 新しい価格体系 何が変わるか 値上げか、値下げか 当記事での解説 Physical storage 圧縮後データに対する課金 制約 Active と Long-term タイムトラベル・フェイルセーフへの課金 単価の違いと圧縮率 単価の違い 圧縮率の例 Physical storage への移行 BigQuery Editions BigQuery Editions とは 3つのエディション・料金表 クエリがプロジェクトをまたぐ場合 いつ Editions

    BigQueryの料金体系(BigQuery Editions)を徹底解説 - G-gen Tech Blog
    tjmtmmnk
    tjmtmmnk 2023/08/23
    JOBS viewとJOBS_TIMELINE viewの違いにも触れられていて詳しい
  • Monitoring resource usage in a cloud data warehouse | Google Cloud Blog

    Marco TranquillinCustomer Engineering Manager for Data Analytics Google BigQuery is a fully managed serverless solution for your enterprise data warehouse workloads. Nothing could be easier than that: Just upload your data via batch or streaming and start running your queries. The underlying system will seamlessly take care of providing the infrastructural resources needed to complete your differe

    Monitoring resource usage in a cloud data warehouse | Google Cloud Blog
  • 【コスト最適化】BigQuery Editions などの解説と見積もり方法

    2023 年度の Google Data Cloud & AI Summit にて BigQuery に対する超有益なアップデートが発表されました! 価格体系の変更について、有効的に活用すればコストの最適化ができるものになります。 ヘビーユーザーは当然のこと、ライトユーザーやこれから検証のために少し触ってみたいような方々に向け、おさらいも交えながら説明をさせていただきたいと思います。また、弊社内で実際に利用している BigQuery のデータセットに対し、この変更でコストがどのように最適化できるのかも紹介させていただきます。 価格体系の変更 まずは、おさらいとして BigQuery の価格体系を解説します。 BigQuery のアーキテクチャはストレージとコンピューティングに分離されています。伴って、BigQuery の料金は、Storage pricing (ストレージ料金)と呼ばれるス

    【コスト最適化】BigQuery Editions などの解説と見積もり方法
  • BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ

    こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス

    BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ
  • Datastream for BigQuery を本番導入しようとしている話

    オープンロジという物流テック企業でエンジニアをやっている阿部です。オープンロジではデータ基盤の整備を進めており、その第一弾として Datastream for BigQuery を番導入しようとしています。導入の経緯や、これまでに調査して分かったコトなどを書いていきたいと思います。 トリッキーな挙動になることもありますが、総じて非常に優れたマネージドサービスです。RDB と BigQuery を同期する仕組みとしては、かなり優秀です。まだ、格的な稼働はしていませんが、いずれオープンロジのデータ基盤の中核を担うシステムになると思っています。 Datastream for BigQuery とは? MySQL, PostgreSQL などのリレーショナルデータベース (RDB) から BigQuery に準リアルタイムでデータを同期する Google Cloud のサービスです。RDB

    Datastream for BigQuery を本番導入しようとしている話
  • GoによるSQLクエリテストの取り組み | メルカリエンジニアリング

    この記事は、Merpay Tech Openness Month 2023 の1日目の記事です。 背景 メルペイのバックエンドエンジニアのa-r-g-vとsminamotです。私達はメルペイ加盟店の管理システムを開発しているチームに所属しています。私達のチームには、複雑な条件を持つBigQueryのSQLクエリがいくつか存在しています。例えば、加盟店管理に関する費用計算などの計算クエリのように、外部環境の変化によって要件が定期的に変更され、マイクロサービス化などのシステム化が難しいクエリがあります。このようなクエリは複雑であるだけでなく、テスタビリティにも問題がありました。そのため、開発者がテストを実施することが困難になっており、クエリの変更を安心して行うことができない状態にありました。 クエリの複雑性 抽出条件の複雑さと複数のマイクロサービスへの依存により、クエリが複雑になっていました。

    GoによるSQLクエリテストの取り組み | メルカリエンジニアリング
  • Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表

    Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表 Google Cloudは、AWSMicrosoft Azureなど競合他社のクラウドに10Gbpsもしくは100Gbpsの高速な専用回線を通じてインターコネクト可能なネットワークサービス「Cross-Cloud Interconnect」を発表しました。 Seamless #multicloud connectivity is here. Our new Cross-Cloud Interconnect lets you connect any public cloud with Google Cloud through our secure, high-bandwidth global network. pic.twi

    Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表
  • BigQueryへEmbulkで転送するバッチ処理を改善した話 - High Link テックブログ

    はじめに こんにちは, 基盤開発チームの奥山(okue)です. High Link では, BigQuery を活用してデータの分析や可視化, 機械学習への活用を行っています. アプリケーション DB の BigQuery へ転送には, AWS ECS Fargate + Embulk という構成でバッチ処理を実行していましたが, いくつか運用上の問題点がありました. 記事では, BigQuery へDBのデータを転送するバッチ処理を, AWS Step Functions + AWS ECS Fargate + Embulk で実装し改善した話をします. 改善前の構成と問題点 構成 改善前のバッチ処理は下図のような構成でした. AWS RDS MySQL には 60個以上のテーブルがありますが, それらを BigQuery へ転送する処理を1つの ECS Task で実行していました.

    BigQueryへEmbulkで転送するバッチ処理を改善した話 - High Link テックブログ
  • Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

    こんにちは、エムスリー エンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。 これは エムスリー Advent Calendar 2020 の19日目の記事です。 エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです(勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!) www.youtube.com これに関連して私のチームでも最近「データ基盤(Digdag + Embulk)のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。 エムスリーのデータ基盤について それまでの構成 クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する 併

    Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
  • MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog

    おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

    MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
  • 数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング

    SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。 記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。 背景 当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。 しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。 課題 メルカリでは販売済み商品を物理削除していないため、

    数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング
  • 1