タグ

bigqueryに関するyanbeのブックマーク (25)

  • データエンジニア / Analytics Engineer向けの権限管理のためのTerraform紹介 - yasuhisa's blog

    これは何? 背景: 権限管理とTerraform 権限管理の対象 誰に権限を付与するのか どのスコープで権限を付与するのか どの強さで権限を付与するのか Terraformについて Terraformの概要: 権限管理でTerraformを使うと何がうれしいのか 例: roles/bigquery.jobUserを付与してみる コラム: どこでTerraformを実行するか Terraformでの権限管理の例 例: データセットの作成 例: データセットに対する権限付与 サービスアカウントの管理 iam_member関連の注意点: AdditiveとAuthorativeを意識する Terraformで管理されていなかったリソースをTerraform管理下に置く: terraform import Terraformの登場人物 terraform planやterraform applyの

    データエンジニア / Analytics Engineer向けの権限管理のためのTerraform紹介 - yasuhisa's blog
  • 一括データ エクスポート: Search Console のデータを活用するための優れた新機能  |  Google 検索セントラル ブログ  |  Google for Developers

    フィードバックを送信 一括データ エクスポート: Search Console のデータを活用するための優れた新機能 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 2023 年 2 月 21 日(火曜日) 日、一括データ エクスポート機能を発表しました。この機能は、Search Console から Google BigQuery に継続的にデータをエクスポートできる新機能です(ロールアウトに約 1 週間かかるため、すぐに利用できない場合があります)。 Search Console でエクスポート機能を設定することで、BigQuery プロジェクトに毎日データダンプをエクスポートできます。 エクスポートされるデータには、すべてのパフォーマンス データが含まれます(ただし、プライバシー上の理由から匿名化されたクエリのデータは除きます)。つまり、一括データ

    一括データ エクスポート: Search Console のデータを活用するための優れた新機能  |  Google 検索セントラル ブログ  |  Google for Developers
    yanbe
    yanbe 2023/03/01
    朗報
  • Looker Studio 用に Google Cloud サービス アカウントを設定する - Looker Studioのヘルプ

    Looker Studio でサービス アカウントを使用するメリット Looker Studio でサービス アカウントを使用するには、組織の Looker Studio サービス エージェントをアカウントのユーザー(プリンシパル)として追加します。これにより、Looker Studio で使用できるサービス アカウントを管理できるようになるほか、組織内のユーザーが必要なデータに簡単にアクセスできるようになります。 個々のユーザーの認証情報ではなくサービス アカウントを使用すると、以下のようなメリットがあります。 サービス アカウントの認証情報を使用しているデータソースは、作成者が退職した場合でも悪影響を受けることはありません。 サービス アカウントの認証情報を使用すると、デバイス ポリシーを使用する VPC Service Controls の境界の背後にあるデータにアクセスできます。

  • BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog

    こんにちは、DMP(Data Management Platform)グループの平井です。毎日デコポンをべています。美味しい。 タイトルの通り、BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントがあったので共有します。 今回のケース Remote Functionsとは ハマりポイント再現 Cloud Functions 2nd genとは Cloud Functions 2nd genをデプロイ BigQuery Connections作成 Remote Funcitonを作成 権限付与 まとめ 今回のケース まずどのような場面でRemote Functionsを使用したのか説明します。 レアジョブグループには新旧2つのデータ基盤があります。 順次移行作業を進めており、その中でRを利用した集計処理を新しいデ

    BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog
  • dbtとDataformを比較し、dbtを使うことにした

    AuthorsTwitter@__Attsun__Published onWednesday, February 10, 2021 最近、業務で DWH / Datamart の整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところ dbt と Dataform がツールとして有力そうだったので、比較してみました。 TL;DRdbt は機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。Dataform は Web ビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbt に比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じるので、どちらが良いかは要求や組織の置かれた状況次第でしょう。私の所属する会社 (Ubie,

    dbtとDataformを比較し、dbtを使うことにした
  • Spread SheetからBigQueryを参照している箇所を特定する方法 - Qiita

    BigQueryのConnected Sheet機能を使うと、BigQueryとSpread Sheetを簡単に連携できてとても便利です。 しかし、その便利さ・気軽さが仇となるケースも存在します。 定期的にBigQueryを参照しているシートが不要になった後もクエリを実行し続け、費用が無駄にかかってしまうことが考えられます。 また、スキャン量やスロット数に問題のあるクエリの監査ログを確認して、実行ユーザーに連絡をとってもConnected Sheet経由のクエリの場合は、身に覚えないと返答されることも多いです。 この記事では、Spead SheetからBigQueryにクエリを実行したログを活用して、どのシートURLからどのクエリが実行されているのかを調査する方法を説明します。 まずGCPの監査ログをCloud LoggingからBigQueryに転送するようなLog Sinkを作成します

    Spread SheetからBigQueryを参照している箇所を特定する方法 - Qiita
  • デフォルト構成を管理する  |  BigQuery  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    デフォルト構成を管理する  |  BigQuery  |  Google Cloud
    yanbe
    yanbe 2022/08/24
    デフォルトタイムゾーン変更したりできるようになったらしい
  • BigQuery リモート関数で Natural Language API を使って、SQL でお客様レビューの感情分析してみた。 | DevelopersIO

    BigQuery リモート関数で Natural Language API を使って、SQL でお客様レビューの感情分析してみた。 こんにちは、みかみです。 Google Cloud 認定 Data Engineer の勉強してたら思ってた以上に ML 要素が強そうで現実逃避したくなってきたので、大好きな BigQuery と遊ぶことにしました。。(ML わけがわからないよ。 はじめに リモート関数とは BigQuery から SQL を実行する時に呼び出せる外部関数で、ユーザー定義関数(UDF)と同じように使えます。 API コールなど、BigQuery 内で完結できない処理もリモート関数を使えば実装できちゃいます。 2022/05/20 現在、まだプレビューの機能ですので、利用する際にはご留意ください。 リモート関数の操作 | BigQuery ドキュメント Extending Bi

    BigQuery リモート関数で Natural Language API を使って、SQL でお客様レビューの感情分析してみた。 | DevelopersIO
  • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

    こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

    BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
  • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

    「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

    自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
  • BigQueryで時を遡って過去のテーブルを再構成する - ZOZO TECH BLOG

    はじめに こんにちは、データシステム部データ基盤ブロックSREの纐纈です。 記事では、過去に遡ってBigQueryのデータを参照する方法(以下、タイムトラベルと呼びます)をご紹介します。また、この機能はBigQueryが提供している、変更または削除されたデータにアクセスするタイムトラベルとは異なることをご了承ください。 開発背景 この機能は過去データを日次スナップショットより細かい粒度で見たい、また障害対応時に障害発生前などピンポイントで時間指定して参照したいという要望を受け、開発することになりました。 さらに、BigQueryからこの機能を作るのに役立ちそうなテーブル関数という機能がリリースされたのもきっかけとなりました。 cloud.google.com テーブル関数とは、事前にパラメータを使って定義したクエリをエイリアスのようにテーブルとして保存して、そのテーブルに対して関数を実行

    BigQueryで時を遡って過去のテーブルを再構成する - ZOZO TECH BLOG
  • Google Play 転送  |  BigQuery  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    Google Play 転送  |  BigQuery  |  Google Cloud
  • The ML.DETECT_ANOMALIES function  |  BigQuery  |  Google Cloud

    yanbe
    yanbe 2021/06/23
    Pre-GAとはいえBigQuery MLでいろんなことが出来るようになっていっててすげーな
  • BigQueryでユーザー定義関数(UDF)は武器になるという話 - ZOZO TECH BLOG

    はじめに こんにちは。ZOZOTOWN部サービスグロースチームでアナリティクスをしている井ノ口です。 この記事ではBigQueryで使える、ユーザー定義関数(UDF)という便利な武器をご紹介します。「UDFって何?」「何のために使うの?」という方に向けた記事のため、高度な分析などはこの記事では扱いません。 UDFとは UDFとは、最初から用意されているSUMやCOUNTのような関数を、ユーザー自身が定義する関数です。 私のチームではGoogle Analyticsのデータから、ユーザーが閲覧したページを分類したり、日時を計算したりする際などにUDFを用いてます。利用法など詳細は公式のドキュメントに記述されているため、そちらをご参照ください。 参考:標準 SQL ユーザー定義関数 | BigQuery | Google Cloud UDFを使うメリット 使い方によって様々なメリットを受けられ

    BigQueryでユーザー定義関数(UDF)は武器になるという話 - ZOZO TECH BLOG
  • BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita

    BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらいBigQueryDNNxgboostAutoMLBigqueryML はじめに 日時間2020-06-17のリリースで、BigQuery MLにAutoML Tables、XGBoost、DNNが来ました。release-notes#June_16_2020 おさらいに、BigQuery MLで何ができるか再整理します。 追記: 日時間2020-07-02のリリースで、BigQuery MLにARIMAも来ましたね。日時間2020-06-28のリリースノートでエラーになってたのですが、リリース日がしれっと修正されてました。release-notes#July_01_2020 BigQuery MLでできること概要 BigQueryでStandard SQLを使って、機械学習モデルを

    BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita
  • Google DataPortalのBigQuery Connecterでクエリパラメータが使えるようになったので触ってみる

    Google データポータルはGoogleが提供するBIツールです。(無料!!) ちなみに日では去年あたりにGoogle Data Studioから名前が代わり、Google データポータルになりました。(なので同じサービスです) ドラッグ&ドロップの直感的な操作で簡単にインタラクティブなグラフを作成し、ダッシュボード化して共有やPDFでのエクスポート、メールでのスケジュール配信などをすることができます。 そんなスグレモノなGoogle データポータルですが、今年のGoogle Cloud Next 2019 in SFで発表された内容によると、更にかなり大幅な強化がなされたようです。 リリースノート ↓ Cloud Nextでのセッション 中でも注目したいのが、BigQuery Connecterでパラメータが使えるようになったことです。 今まではCommunity Connector

    Google DataPortalのBigQuery Connecterでクエリパラメータが使えるようになったので触ってみる
  • スプレッドシートとBigQueryだけで定期更新するBIを作る方法 - Qiita

    詳細手順 1.BigQueryとのコネクト 1-1.データ>データコネクト>BigQuery 1-2.プロジェクトを選択してコネクト 1-3.Queryを書く 1-4.結果を挿入する 2.マクロの設定方法 2-1.一度別タブに遷移しマクロの記録を開始 マクロの記録を開始する際は別のタブからデータシートへ遷移するところからはじめる 2-2.データシートのタブに遷移しQueryの更新をして、記録を保存 2-3.スクリプトエディタに遷移 2-4.現在のプロジェクトのトリガーへ遷移 2-5.トリガーを設定する 僕はだいたいこういう設定をします。毎日朝更新。 3.グラフを作る 最後に 毎日やるような作業はどんどん自動化して楽をしていきましょう QueryとGAS(この場合はGAS書いてもない)で、業務効率化はどんどんできます データ見るの大事です おまけ こんなスクリプトです。セルの選択などいらない

    スプレッドシートとBigQueryだけで定期更新するBIを作る方法 - Qiita
  • 数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング

    SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。 記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。 背景 当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。 しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。 課題 メルカリでは販売済み商品を物理削除していないため、

    数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング
  • BigQuery で 1 円も溶かさない人の顔 (ZERO BYTE STRUCT を考案した) - Qiita

    自分は BigQuery で Extract-Load されたデータを機械学習モデル用に前処理し、テラバイト級の特徴量エンジニアリングを行っています。この記事では、BigQuery のデータ量を一切消費せず、誇張なく 1 円も溶かさない裏技をまとめます。(2019/12/18 現在) ※ パロ元:BigQueryで150万円溶かした人の顔 元ネタの方と同じ職場で働くことになりましたので、被せて書いております。この記事では、BigQuery 記事最安値を目指します。 速くて安い BigQuery は、データウェアハウスとしても、特徴量エンジニアリングツールとしても優れており、機械学習モデルを用いたサービスを構築する際には、ベースラインとして一候補に挙がるでしょう。 BigQuery の料金 オンデマンドクエリを利用する際、極めて重要なのは読み取りデータ量に対して \$5/TB の料金が発生す

    BigQuery で 1 円も溶かさない人の顔 (ZERO BYTE STRUCT を考案した) - Qiita
  • BigQueryのコスト可視化ダッシュボードを10分で作る - 下町柚子黄昏記 by @yuzutas0

    この記事はGoogle Cloud Platform その1 Advent Calendar 2018 - 18日目の記事です。 以前こういうブコメをしたのですが、言いっ放しだとダサいので、具体的なやり方を書きます。 "アカウントごと/日付ごとのBigQueryコストを可視化できるダッシュボード" なら Stackdriver + BQ + Datastudio を使うと作業時間10分・ほぼ無料で作れるので、うちはそのやり方を採用していますね。… https://t.co/9yoni22iw7— ゆずたそ (@yuzutas0) August 17, 2018 もくじ もくじ はじめに この記事のゴール 解決したい課題 課題の背景 実行方針 完成イメージ 作業手順 1: BQクエリ実行ログを流す 2: DataStudioでダッシュボードに表示する 応用編 1: 全体コストを可視化する 2

    BigQueryのコスト可視化ダッシュボードを10分で作る - 下町柚子黄昏記 by @yuzutas0