タグ

BigQueryに関するswfzのブックマーク (19)

  • Looker Studioで組織内に魔境を作らないための裏技的Tips集 - Qiita

    はじめに Looker StudioはGoogleが無料で提供しているBIツールです。無料でもかなりの機能が揃っており、BIの活用にあたっては大変重宝する存在になっています。ただし、以前「後回しにするとどうしようもなくなる(かもしれない)Looker Studioの権限を理解する」で整理したように、組織管理という観点で難があるのは事実です。 それは例えば、レポートを組織的に管理する機能がなかったり、Google CloudのIAMを利用した権限管理ができなかったりすることが挙げられます。Looker Studio Proという有償版のサービスでは、こうした組織管理を円滑にするような機能拡充がされています。 とはいえ、実は様々なデータをフル活用すると無料版でもできることは多くあります。今回は、そんな裏技的Tipsを5つ紹介しようと思います。 こんな方におすすめ Looker Studioの組

    Looker Studioで組織内に魔境を作らないための裏技的Tips集 - Qiita
  • MERGE文で実現するパーティションの置換によるテーブル差分更新の方法 (BigQuery) | terashim.com

    パーティションの置換による差分更新 以前の記事 BigQuery 上でデータ変換パイプラインを構築するための SQL の書き方 では、MERGE文を使っていわゆるUPSERT処理を行う方法について紹介しました。 UPSERTとは、差分データの各行に対して、もしユニークキーの値がそれと合致するような行が対象テーブルに存在すればその行を上書き更新(UPDATE)し、存在しなければ新規挿入(INSERT)するという処理のことです。 記事ではそれよりもシンプルな方法として パーティション置換による差分更新 の実装をご紹介します。 まずはパーティション置換による差分更新とはどのようなものか、例を図で示します。 図: パーティションの置換による差分更新の例 前提として 更新対象のテーブルは適当なカラム (ここでは日付カラム date) でパーティショニングされているものとします。 差分データは常にパ

    MERGE文で実現するパーティションの置換によるテーブル差分更新の方法 (BigQuery) | terashim.com
  • 2023 年の BigQuery 権限管理

    酒とゲームとインフラとGCP 第18回 発表資料

    2023 年の BigQuery 権限管理
  • [GCP Datastream] AWS RDS から BigQuery へのレプリケーションを試してみた

    概要 PostgreSQLMySQL などの運用データベースから、GCP のデータウェアハウスである BigQuery に、直接かんたんにデータをレプリケートできる Datastream for BigQuery のプレビュー版が提供されました。 BigQuery のスキーマ定義、BigQuery に適したデータ型への変換、データを BigQuery に送信するバッチ処理などが不要になることが期待されたので、試してみました。 構成 記事では以下の構成で GCP Datastream for BigQuery を試しました。 AWS EC2 : RDS の踏み台サーバー AWS RDS (MySQL) : ソース GCP BigQuery : レプリカ GCP Datastream : RDS のデータを BigQuery にレプリケート 手順 Datastream 公式ドキュメント

    [GCP Datastream] AWS RDS から BigQuery へのレプリケーションを試してみた
  • データ民主化基盤のSQLコーディング規約|Ryo YOSHI

    こんにちは。マネーフォワード分析推進室の吉住です。 分析推進室では、社内の多くの人が意思決定をする際に見たい情報にハードルなくアクセスできる状態を継続的に実現する「データの民主化」を目指しています。そのために、BigQueryでカジュアルに分析できる基盤の整備に取り組んでいます。(詳しくは、以下の記事を参照ください) 元々は、主に管理会計に分析基盤を利用するため、SSOT(Single Source of Truth: 信頼のおける唯一の情報源)というデータ品質の概念を重要視してきましたが、分析基盤の利用者が増加すると品質の担保が難しくなります。そこで、BigQueryのカジュアルな分析基盤におけるSQLコーディング規約を整理しました。 この記事で、その分析基盤におけるマネーフォワードのSQLコーディング規約をご紹介します。 参考資料SQLコーディング規約は以下の資料を参考にしています。

    データ民主化基盤のSQLコーディング規約|Ryo YOSHI
  • BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

    背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった 社内で他の方が使うケースをぼちぼち見ることがある 自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる 著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間です さすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきた そもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしました というわけで、

    BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog
  • GA4+BigQuery ハンドブック / ga4_bigquery

    Transcript GA4+BigQuery ハンドブック Ver 1.0.0α しんゆう @data_analyst_ 資料について • GA4+BigQueryはまだオフィシャルサイトにも情報が少 なく手探り状態 • そこでいろいろな情報を1つにまとめておくことは有用だ と考えた • まだまだ取り組み始めたばかりなので間違いや効率の悪い 方法を見つけたら教えていただけると幸いです 資料について About 資料について • 2021/10/13 α版公開 更新履歴 About 名前:しんゆう @data_analyst_ ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net 最近の活動:データを使いやすくする人 (データアーキテクトまたはデータ整備人) スライドが表示されているページの下段にある説明欄からも リンクが

    GA4+BigQuery ハンドブック / ga4_bigquery
  • セキュアなBigQueryの運用方法

    JulyTechFesta2021 登壇資料 https://techfesta.connpass.com/event/213069/ IAM,VPC Service Controls, Logging, 承認済みviewなどBigQuery周りのセキュリティサービスはいくつもあります。セキュリティを担保するためのサービスとしてどのようなものがあるのか、またそれを使った運用方法はどのようなやり方があるのかを実例を交えて紹介します。 #JTF2021 #JTF2020_C

    セキュアなBigQueryの運用方法
  • Cloud Workflowsを使用してGCSのデータをBigQueryへロードする - RHYTHM TECH BLOG

    こんにちは、香田です。 今回はCloud Workflowsを使用してGCSのデータをBigQueryへロードする方法について紹介していきます。 Cloud Workflowsの概要についてはこちらを参考にしてみてください。 GCSに保存されているデータの構成 はじめにBigQueryへロードするGCSのデータについて説明しておきます。 利用するGCSのデータですが、下記のように日付ごとのフォルダにデータが保存される構成を想定しています。 gs://sample-workflows ├─ 2020-06-05 │ └── data.csv ├─ 2020-06-06 │ └── data.csv └─ 2020-06-07 └── data.csv customer_id,first_name,last_name,email,create_date 80,Marilyn,Ross,mari

    Cloud Workflowsを使用してGCSのデータをBigQueryへロードする - RHYTHM TECH BLOG
  • Google Analytics 4 + BigQueryでよく使う基本的なSQL例

    マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。 Google Analytics 4 (以下GA4)がリリースされましたね。 というわけでGA4のBigQueryエクスポート機能を使って早速データを抽出してみましょう! 以前、GA360+BigQueryで私がよく使う基的なSQL例を紹介しましたが、今回はそれのGA4バージョンです。 1. ページビュー数 GA4の日別ページビューを出してみます。 タイムゾーンを任意で変更したいので、event_dateカラムではなくevent_timestampを「Asia/Tokyo」にして使ってます。 そ

    Google Analytics 4 + BigQueryでよく使う基本的なSQL例
  • Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー

    Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
  • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

    こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

    家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
  • 分析関数(ウインドウ関数)をわかりやすく説明してみた

    はじめに ちょっととっつきにくいけどとっても便利な分析関数について、なるべく分かりやすく説明してみようと思います。Oracleを対象にしていますが、他のDBでもたぶん似たようなものでしょう(無責任)。 まず分析関数とは何をするものか、ですが、一言で言うと集合関数と同じ集計動作をそれぞれの行に制限範囲で実行するものです。ここでいう集合関数とは、MAXやSUMやAVG等、GROUP BYと共に使い行をまとめるて集計計算する関数ですね。分析関数は集合関数と同様の計算をしますが、集合関数と違い行をまとめません。それぞれの行で集計計算し結果を返します。ここが集合関数との大きな違いです。 また、集合関数ではGROUP BYの同じカラム値をもつ全行を一つに集計しますが、分析関数では集計対象となる行の範囲を任意で指定できます。関数に続くOVER句でこの範囲指定を行います。集合関数と分析関数は基同じ名前な

    分析関数(ウインドウ関数)をわかりやすく説明してみた
  • BigQuery 特集: ストレージの概要 | Google Cloud 公式ブログ

    [新しいブログシリーズ] BigQuery 特集: 概要新しいブログシリーズでは、BigQuery の機能の概要を説明します。 執筆者: Google Cloud Japan Team • 所要時間: 4 分 ストレージ管理では、データを保持するストレージを BigQuery がどのようにして管理しているのか確認してみましょう。MySQL のような従来のリレーショナル データベースでは、データは行単位で格納(レコード指向のストレージ)されるため、トランザクションの更新や OLTP(オンライン トランザクション処理)のユースケースに適しています。一方、BigQuery は、従来のデータベースとは異なるカラム型ストレージを使用していて、各列は別々のファイル ブロックに保存されるため、OLAP(オンライン分析処理)のユースケースの理想的なソリューションとなっています。BigQuery テーブルに

    BigQuery 特集: ストレージの概要 | Google Cloud 公式ブログ
  • dbtとDataformを比較し、dbtを使うことにした

    AuthorsTwitter@__Attsun__Published onWednesday, February 10, 2021 最近、業務で DWH / Datamart の整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところ dbt と Dataform がツールとして有力そうだったので、比較してみました。 TL;DRdbt は機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。Dataform は Web ビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbt に比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じるので、どちらが良いかは要求や組織の置かれた状況次第でしょう。私の所属する会社 (Ubie,

    dbtとDataformを比較し、dbtを使うことにした
  • SQLレクチャー会をチーム内でやっている話 - yasuhisa's blog

    ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目的はこんな感じです。 チーム内のSQL / 分析力の底上げ データの民主化的なやつ データライフサイクルの改善 集計側であれこれ無理に頑張るより、入力データを集計側に合わせてもらうほうが圧倒的に省力化されることが多い データの入力側と集計側の意識を合わせることで、チームのデータ分析のしやすさを高めていきたい 毎月、毎期末作っているスプレッドシートの自動化 手間を減らしたり、手作業によるミスを減らしたり このエントリをきっかけに「うちでも似たことやってるけど、この取り組みをやってみたらさらにうまくいったよ」といったことが知れるとうれしいです。 背景

    SQLレクチャー会をチーム内でやっている話 - yasuhisa's blog
  • BigQuery にデータを差分ロード(UPSERT)する方法まとめ | DevelopersIO

    こんにちは、みかみです。 やりたいこと GCS に配置してあるファイルデータを、BigQuery に差分ロードしたい 重複チェックキーを指定して、キー重複レコードは後からロードするデータで上書きしたい ロード処理でエラーが発生した場合には、ロード前の状態にロールバックしたい(ロード前の状態を担保したい) 前提 GCS へのアクセスおよび BigQuery へのデータロードには、Python クライアントライブラリを使用します。 Python クライアントライブラリ実行環境およびクライアントライブラリで使用するサービスアカウントは準備済みです。 今回は、環境準備不要ですぐにクライアントライブラリが使える CLOUD SHELL を使用しました。 Cloud Shell の使用 | Cloud Shell ドキュメント データを準備 以下のテストデータ生成ツールで確認用のデータを作成し、Big

    BigQuery にデータを差分ロード(UPSERT)する方法まとめ | DevelopersIO
  • BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

    自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

    BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
  • MySQLからBigQueryの同期を差分更新にしたら4倍高速になった話 / Sync from MySQL to BigQuery become 4x faster by incremental updating - Speaker Deck

    Embulk Meetup Tokyo #3のLTです

    MySQLからBigQueryの同期を差分更新にしたら4倍高速になった話 / Sync from MySQL to BigQuery become 4x faster by incremental updating - Speaker Deck
  • 1