並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 701件

新着順 人気順

BigQueryの検索結果201 - 240 件 / 701件

  • BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた

    はじめに皆様、こんにちは。Google Cloud Japan Customer Engineer Advent Calendar 2020 の 8 日目は 今年公開された BigQuery のリサーチペーパーを読んでみて個人的に興味があった点をまとめてみようと思います。2020 年で 10 周年を迎えた BigQuery の進化の過程が理解できるので皆様もお時間あればご一読を! TL;DRこのホワイトペーパーは、Dremel (BigQuery のクエリエンジン) が採用している主要なアーキテクチャや考え方(これらのいくつかはクラウドネイティブなデータウェアハウスではトレンドとなりつつあります)がこの10 年間でどのような進化を経て現在の BigQuery になったのかを、Seattle Report on Database Research というレポート内で述べられている主要な 5

      BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた
    • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

      3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

        日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
      • Vertex AIとBigQueryでつくる、簡単ベクトル検索&テキスト分析システム | DevelopersIO

        Vertex AIパイプラインを使うことで、BigQueryおよびBigQueryから参照できるデータを対象にしつつも、Google Cloud Pipeline ComponentsやVertex AIメタデータなどVertex AIの機能の恩恵もできるだけ受けることができます。 データアナリティクス事業本部 機械学習チームの鈴木です。 BigQueryでは、Vertex AIと連携して格納したデータを生成AIで処理することが可能です。 例えばテーブルに格納済みのテキストをもとに埋め込みベクトルや別のテキストを生成することができます。 特に埋め込みベクトルがあれば興味があるテキストに類似したテキストをBigQuery内で検索し、類似レコードの特徴から関心のあるテキストを分析することもできます。また、RAGに使用することもできます。 今回はBigQueryとVertex AIを使って、テー

          Vertex AIとBigQueryでつくる、簡単ベクトル検索&テキスト分析システム | DevelopersIO
        • BigQuery 上でデータ変換パイプラインを構築するための SQL の書き方 | terashim.com

          昨年12月に Dataform の Google Cloud 加入が発表 されて以来, 関心を持って調べています. Dataform は BigQuery などのデータウェアハウス上で SQL を中心としたデータ変換パイプラインを構築するための仕組みです. 先日は Dataform で Google Analytics 4 の BigQuery Export データ を変換するパイプラインを作ってみたりもしました(GitHub: terashim/dataform-google-analytics-4-example). Dataform は非常に強力なツールで, 簡単な SELECT 文を書けば CREATE TABLE 文や MERGE 文などデータ更新用のクエリを自動生成してくれます. しかし詳しく調べていくにつれて, より本格的なパイプラインを構築するにはやはり BigQuery

            BigQuery 上でデータ変換パイプラインを構築するための SQL の書き方 | terashim.com
          • Firebase Crashlyticsを用いたError検知のすすめ - Mirrativ Tech Blog

            こんにちは。shogo4405です。本エントリーは、Firebase Crashlytics(以下Crashlytics)を利用しているiOSエンジニア向けにError情報の保存および活用についてのミラティブ社の事例を紹介したいと思います。 Errorの収集 ここで言うError情報とは、protocol Error : Sendableのことを指しています。Mirrativでは、主に次のError情報を収集してアプリケーションの品質向上につなげています。 URLSession#dataTaskでコールバックで得られるError 通信に関わるエラーを検知する用途 DecodableのDecodingError クライアントとサーバー間でデータ交換がうまくいっているか検知する用途 try AVAudioSession.shared.setCategoryでスローされるError 音声系統が意

              Firebase Crashlyticsを用いたError検知のすすめ - Mirrativ Tech Blog
            • Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog

              テクノロジー戦略本部データサイエンス部の近藤です。 バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。 そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。 バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、 新たにDatabricksの導入を決めました。 バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとは バイセルの今の課題と未来 どうやって課題を解決するのか なぜApache Sparkなのか Databricksの利点 Databricks導入後の世界 データサイエンス部の野望 SSOTとは データマネジメントでは「S

                Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
              • SmartHRのカスタマーサポートをサポートしてくれるエンジニアの職種名でめっちゃ悩みました|otapo

                カスタマーサポートOpsの仕事SmartHRのカスタマーサポートは、ユーザーさんとの接点としてIntercomを利用しています。 今回募集するカスタマーサポートOpsの仕事の2つの柱のうちの1つは、Intercomで発生し、BigQueryに同期された問い合わせデータを、RedashやLookerを使って分析することです。 たとえば下の画像のように問い合わせ対応終了後に送っているアンケートの結果をIntercomからBigQueryに同期し、Lookerを使って可視化しています。 また、過去の問い合わせのデータを元に、Prophetという時系列解析ライブラリを使って、未来の問い合わせ件数の予測をしたりもしています。 件数予測については、以前カスタマーサポートOpsのメンバーがQiitaに書いた記事もあります。 もう1つの柱は、カスタマーサポートのメンバーがサポートに必要な情報を得たり、問い

                  SmartHRのカスタマーサポートをサポートしてくれるエンジニアの職種名でめっちゃ悩みました|otapo
                • BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG

                  こんにちは、データ基盤の開発・運用をしている谷口(case-k)です。 本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。 ポリシータグとは ポリシータグを採用した理由 匿名化による機密性の高さ 機密性と利便性の両立 データ基盤を保守運用しやすい 秘密情報をテーブルに新規追加しやすい 秘密情報の権限管理がしやすい ポリシータグを活用したデータ連携の仕組み 利用者が参照するデータ連携後のテーブル 2つのデータ連携基盤 日次データ連携基盤 基幹DBからBigQuery(Private)へのロード BigQuery公開環境への書き込み リアルタイムデータ連携基盤 BigQueryロード前にマスクしたカラムを追加 BigQueryへのストリーミング

                    BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG
                  • trocco・BigQuery・Tableauを採用。アソビューがデータ分析基盤の再構築に挑んだ理由 - what we use(技術スタックデータベース)

                    はじめまして、アソビューでデータ基盤チームに所属している霧生です。 近年、モダンデータスタックの登場などによりデータ分析基盤は一層盛り上がりを見せています。選択肢も増えてできることが多くなった反面、どう構築していくか迷う場面も多いのではないでしょうか。今回はアソビューのデータ分析基盤の構成と現状の課題、将来的な改善をどう考えているのかなどを解説しますので、ご参考になれば幸いです。 現在のアソビューのデータ分析基盤アソビューは創業10周年を超えており、当然ながら今までもデータを分析して事業やサービスに役立ててきました。しかし、コードやインフラの継ぎ足しを重ねたことにより秘伝のタレのような状態と化してしまい、多くの課題が生まれています。そこで、アソビューではこの問題を解消するために、昨年から株式会社DATALEさんとともにデータ分析基盤の再構築を行いました。 データ分析基盤を構築するにあたり、

                      trocco・BigQuery・Tableauを採用。アソビューがデータ分析基盤の再構築に挑んだ理由 - what we use(技術スタックデータベース)
                    • Data Portalでアプリのデータを可視化しよう - BOOK☆WALKER inside

                      Data Portalでアプリのデータを可視化しよう こんにちは、メディアサービス開発部アプリ開発グループのタンです。 作ったアプリがどう使われているかは誰しも知りたいですね。頑張ってAnalyticsでイベントを実装して、BigQueryにも連携させたのに、なかなか活用されないケースが多いでしょう。 集めたデータを見る機会も少なく、数字だけで見にくくて解釈するのに時間がかかります。そんな問題を解決するためにGoogleさんがGoogleマーケティングプラットフォームの機能の一つとしてData Portal(旧Data Studio)を2016年にリリースしました。今回はそんなData Portalの簡単な使い方を紹介したいと思います。 事前準備 当たり前ですが、Data Portalを使うにはまずデータが必要です。BigQuery、スプレッドシート、CSVファイル、様々なインプットが使え

                        Data Portalでアプリのデータを可視化しよう - BOOK☆WALKER inside
                      • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                        はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                          BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                        • 分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog

                          こんにちは、データ基盤グループの吉本と吉田(id:syou6162)です。モノタロウでは基本的にはBigQueryを定額料金で利用していますが、利用者の多い時間帯はFlex Slotsも併用しています。本エントリでは、Flex Slotsの適切なスロット数を定量的に決めるために行なった試行錯誤について紹介します。 モノタロウでのBigQueryの利用状況 課題感 課題感1: 適切なFlex Slotsのスロット数をどう決めるか 課題感2: 過去の期間との実行時間は単純には比較できない 解決策 解決策1: 同一のクエリを定期的に動かし、実行時間をCloud Monitoringで計測 解決策2: 計測用オンデマンドのGCPプロジェクトでもクエリを実行し、理想状態との相対実行時間を知る まとめ モノタロウでのBigQueryの利用状況 モノタロウでは様々な意思決定の場面でデータ活用が行なわれて

                            分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog
                          • BigQueryが使えないユーザーむけGA4探索レポート活用例 - ブログ - 株式会社JADE

                            こんにちはあるいはこんばんは。村山(twitter id:muraweb_net)です。2023年6月末に ユニバーサルアナリティクス が終了し、2023年7月から本格的に GA4 を利用することになりました。慣れないUIに戸惑っている方が多いかもしれません。今回は、 GA4 で利用できるようになったレポート機能である「探索」について紹介します。 モニタリング分析とアドホック分析 モニタリング分析 アドホック分析 GA4 の「レポート」と「探索」 GA4 の「レポート」でのモニタリング分析 GA4 の「探索」でのモニタリング分析とアドホック分析 GA4 の「探索」レポート活用例 自由形式 自由形式でレポートUI内でデータ分析するケース 折れ線グラフ ドーナツグラフ 地図 テーブル 自由形式にてデータエクスポートした後にBIツールで分析するケース GA4 からデータをエクスポートし外部BIツ

                              BigQueryが使えないユーザーむけGA4探索レポート活用例 - ブログ - 株式会社JADE
                            • Firebase Functionsのロギングを改善した話 - Studyplus Engineering Blog

                              はじめまして、モバイルクライアントグループの市川です。昨年9月からポルトの開発にジョインしました! porto-book.jp ポルトはFlutterとFirebaseで開発しているサービスです。 サーバサイドの処理は全てFirebase Functionsで実装されており、エンドポイントの数は40近くあります。 その中には、課金に関するクリティカルなAPIや外部サービスと連携するAPIなど、問題が起きるとサービスの継続に大きな影響を与えるものも多くあります。 今回はサービスを安定運用するため、Firebase Functionsのロギング改善した話を3つ書こうと思います。 ロガーの変更 と エラーレポーティング ①重大度レベルの反映 ②ロガーの引数が柔軟 参考情報 ログの保持期間の変更 不要ログの排除 除外の設定方法 まとめ ロガーの変更 と エラーレポーティング ポルトのFunctio

                                Firebase Functionsのロギングを改善した話 - Studyplus Engineering Blog
                              • GCP と Edge TPU でつくるインテリジェント IoT 基盤

                                IoT はデバイスからデータを取る存在から、様々な解析をしたりエッジ側でよりインテリジェントな処理が求められる存在へと変化してきています。この記事では、 Edge TPU で複雑でインテリジェントな処理をエッジ側で実行し、GCP でその結果をリアルタイムに可視化、解析する方法を紹介します。 TL;DR — 以下のリポジトリの手順に従うと、Edge TPU と GCP上の IoT データ分析基盤を構築できます。 https://github.com/google-coral/project-cloud-monitor Edge TPU とはEdge TPU は、Google が開発した TensorFlow Lite 形式の機械学習モデルを高速に演算(推論)するための ASIC のことです。2018年に発表されるまで、 TPU (Tensor Processing Unit) というとクラウ

                                  GCP と Edge TPU でつくるインテリジェント IoT 基盤
                                • GoによるSQLクエリテストの取り組み | メルカリエンジニアリング

                                  この記事は、Merpay Tech Openness Month 2023 の1日目の記事です。 背景 メルペイのバックエンドエンジニアのa-r-g-vとsminamotです。私達はメルペイ加盟店の管理システムを開発しているチームに所属しています。私達のチームには、複雑な条件を持つBigQueryのSQLクエリがいくつか存在しています。例えば、加盟店管理に関する費用計算などの計算クエリのように、外部環境の変化によって要件が定期的に変更され、マイクロサービス化などのシステム化が難しいクエリがあります。このようなクエリは複雑であるだけでなく、テスタビリティにも問題がありました。そのため、開発者がテストを実施することが困難になっており、クエリの変更を安心して行うことができない状態にありました。 クエリの複雑性 抽出条件の複雑さと複数のマイクロサービスへの依存により、クエリが複雑になっていました。

                                    GoによるSQLクエリテストの取り組み | メルカリエンジニアリング
                                  • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

                                    こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

                                      複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
                                    • AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ

                                      こんにちは、10月後半の2週間、エムスリーのAI・機械学習チームでインターンをしていた後藤です。 今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。 他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話 背景 BigQuery Emulatorの登場 bqemulatormanagerの作成 スキーマの自動取得 並列処理への対応 テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイント インターンの話 進め方について AI・機械学習チームについて 終わりに BigQueryのローカルテスト基盤を作った話 背景 AI・機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望

                                        AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
                                      • データ基盤は「データで」改善する − 中間テーブル作成の事例|Mercari Analytics Blog

                                        メルカリAnalytics Infraチームの@__hiza__です。 この記事では、メルカリにおけるデータ基盤の整備について紹介します。 今回は、膨大な生のテーブルについてどのテーブルから中間テーブル化すると効果的か、データにもとづいて優先順位を付けた事例を説明します。 また、あわせて大規模なデータ基盤を改善する際に「データ基盤の利用状況のログ」が役立つことをお話したいと思います。 中間テーブルを作る意義データ分析用の中間テーブルを作成する意義を簡単におさらいします。 例えば、WebサービスのRDBに入っているデータで分析を行う場合に以下のような加工をしたテーブルを用意すると分析が便利になります。 例) 生テーブルを分析に使いやすくする加工の例 よくjoinして利用する複数のテーブルをあらかじめjoinしておく コード化された値を人が見て分かる値に変換しておく(都道府県コード01→北海道

                                          データ基盤は「データで」改善する − 中間テーブル作成の事例|Mercari Analytics Blog
                                        • BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita

                                          BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみるPythonBigQueryemulatorGoogleCloud はじめに みなさん、BigQueryが絡む処理のローカル開発やテストどうしてますか?BigQueryは公式のエミュレーターが提供されていないのでけっこう困ること多いんじゃないでしょうか? 私はとりあえず、ローカルではなく専用の環境を用意してそこに接続する形にしていましたが、業務委託の方などに入っていただくことが増えると権限周りで少々悩ましいことも多いです。 ただ数ヶ月前に、goccyさんという方が開発されたGo製のOSSbigquery-emulatorが公開され、こうした問題に解消の兆しが見えてきました。(開発者の方にはリスペクトしかありません!) 少し前までは提供されていない機能も多かったのですが、開発

                                            BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita
                                          • バッチとストリーミング、それぞれの障害に立ち向かう

                                            Data Engineering Study #4 の資料です https://forkwell.connpass.com/event/189259/

                                              バッチとストリーミング、それぞれの障害に立ち向かう
                                            • GitHub運用委員の紹介 - Classi開発者ブログ

                                              みなさま、おはこんハロチャオ〜。開発支援部所属のid:aerealです。 この記事ではClassiにおけるGitHub運用委員という役割とその仕事について紹介します。 また、この記事はClassi developers Advent Calendar 2022 - Adventarの2日目の記事としてお届けします。 GitHub運用委員とは Classiでは開発のコラボレーションツールとしてGitHubを活用しています。 Webサービスで事業を提供する企業にとって最も重要なソフトウェア資産といえるソースコードをホストするサービスですから不適切に扱えば重大な損害を被ることになりますし、最近はGitHub ActionsというCIサービスも利用できますから一歩間違えれば本番環境で稼働動しているサービスに大きな影響を与えかねません。 当社には情シスやサイバーセキュリティ推進部といった部署が存在し

                                                GitHub運用委員の紹介 - Classi開発者ブログ
                                              • BigQuery Studio を発表 - データから AI へのワークフローを加速するコラボレーション指向の分析ワークスペース | Google Cloud 公式ブログ

                                                BigQuery Studio を発表 - データから AI へのワークフローを加速するコラボレーション指向の分析ワークスペース ※この投稿は米国時間 2023 年 8 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。 最近の調査によると、データと AI を効果的に活用している組織は、競合他社よりも収益性が高く、さまざまなビジネス指標においてパフォーマンスが向上していることが報告されています。過去 2 年間にデータと分析への投資を増やした組織は 81% にも上ります。しかし、多くの組織が依然としてデータのビジネス価値を最大限に引き出すことに苦慮しており、40% 以上の組織が、分析ツールやデータソースが異なることや、データ品質が低いことを最大の課題として挙げています。 統合された、インテリジェントでオープンな Google Cloud は、セキュアなデータおよ

                                                  BigQuery Studio を発表 - データから AI へのワークフローを加速するコラボレーション指向の分析ワークスペース | Google Cloud 公式ブログ
                                                • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

                                                  2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

                                                    スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
                                                  • Cloud Buildで何かを定期的に実行するノウハウ | メルカリエンジニアリング

                                                    この記事は、Merpay Advent Calendar 2022 の10日目の記事です。 こんにちは。メルペイ Data Management TeamのData Managerのhyrrot(@hyrrot)です。 メルカリグループでは、社員がデータに基づく意思決定を行えるようにするために、Google BigQueryを使って構築したデータウェアハウスを管理・運用しています。様々なデータソースからBigQueryにデータを取り込んでから、dbt(data build tool)を利用してデータウェアハウスに取り込まれたデータを変換し、利用者がスムーズにデータを利用できるようにしています。 引用: mercari engineering 本記事では、こちらのdbtを実行するシステムをどのように設計・実装したかについて説明します。 dbtに限らず、何かを定期的に実行するシステムをGCP

                                                      Cloud Buildで何かを定期的に実行するノウハウ | メルカリエンジニアリング
                                                    • BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog

                                                      背景 どうやって異常を検知するか BigQuery MLでの異常検知 検知できるモデルの種類 共通設定 データの前準備 モデルの学習 モデルを元にスロット使用量が異常に増加していないか予測する 所感 背景 BigQueryはオンデマンドとフラットレート(定額料金)がある オンデマンドはスキャン量がお金に直結するため、INFORMATION_SCHEMA.JOBS_BY_*などを使ってクエリ警察をしている方も多いはず INFORMATION_SCHEMAに代表されるデータ管理に役に立つ現場のノウハウを最近会社のTech Blogに書いたので、そちらも見てね 一方で、フラットレートに関しては定額使いたい放題のプランであるため、オンデマンドよりはクエリ警察をしていない場合もある 見れるなら見たいが、どうしても支出に直結するオンデマンドを優先して見てしまいがち。工数も限られている が、あまりに自由

                                                        BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog
                                                      • ウェブログからSQLで指標を計算する8構文~GA4のBigQueryを題材に – marketechlabo

                                                        Googleアナリティクス4プロパティが登場し、誰でもBigQueryにログを出力できるようになった。ログ分析を始める環境は揃ったわけだが、ログ分析のノウハウはあまり世に出ていない。SQLを使ってこれらを分析する方法を少し紹介する。どんな高度なログ分析をするにしても、これが基本となる。 ウェブ分析の指標 ウェブ分析の基本は ページビュー数 セッション数 人数 のカウントである。複雑な分析も、結局カウントしているのはこの3つの指標に集約されることが多い。Eコマースになると購入金額の合計なども入ってくることはある。 そしてこれに「○○した」という条件が付いて イベント○○が発生した回数 ○○したページビュー数 パラメータ△△の値が□□だったイベント○○が発生した回数(ページ□□のページビュー数) ○○したセッション数 ○○した人数 をひたすらカウントする。たとえば 資料ダウンロードボタンをクリ

                                                          ウェブログからSQLで指標を計算する8構文~GA4のBigQueryを題材に – marketechlabo
                                                        • 番組視聴者数を秒単位で分析 テレビ東京のGCP活用事例

                                                          関東圏に向けてテレビ番組を放送するテレビ東京では、構築されていた視聴データ分析基盤を新たに「Google Cloud Platform」(GCP)のデータウェアハウス(DWH)サービス「Google BigQuery」(以下、BigQuery)やインメモリ型の分析サービス「BigQuery BI Engine」などを活用して構築し直した。 なぜ、GCPを選んだのか。どのように視聴者をリアルタイムに分析しているのか。2019年7月29~31日に開かれた「Google Cloud Next Tokyo 2019」においてテレビ東京でテックリードを務める段野祐一郎氏が講演した内容を要約してお伝えする。 番組制作を支える視聴データと課題を抱えた分析基盤 段野氏はテレビ視聴データがどう取得できるようになってきたのかについて説明する。 「従来はビデオリサーチの統計情報や、アンケートデータを用いて視聴デ

                                                            番組視聴者数を秒単位で分析 テレビ東京のGCP活用事例
                                                          • Google Cloud 版 Dataform と周辺リソースの図 - ぽ靴な缶

                                                            GCP 版 Dataform がついに GA になりましたね。同時に定期実行の仕組みも出て、一通りの機能が揃った感がある。いまこそ買収以前の SaaS 版(Legacy 版)から GCP 版に移行する時!! しかし GitHub リポジトリと連携する場合、登場人物が多くて難しくなっていると思う。 特に GCP に馴染みがなかったりデータ分析がメインの人は困りそう。公式ドキュメントには step by step で書いてあるものの、なぜ必要なのか分からないまま設定することになる。 なので全体像を図にしたり補足するという趣旨のエントリです。 Dataform とは Dataform とは...という話はしません。公式ドキュメントや世間のブログ記事を読もう。 Dataform を使うと、テーブル同士の依存に基づいて順番に SQL を実行してデータパイプラインを作ったり、依存関係を可視化したり、デ

                                                              Google Cloud 版 Dataform と周辺リソースの図 - ぽ靴な缶
                                                            • 株式会社セブン-イレブン・ジャパン:これからの IT 戦略を支えるデジタルデータ基盤「セブンセントラル」を Google Cloud 上に構築 | Google Cloud 公式ブログ

                                                              株式会社セブン-イレブン・ジャパン:これからの IT 戦略を支えるデジタルデータ基盤「セブンセントラル」を Google Cloud 上に構築 日本全国に多数の店舗を展開する大手コンビニエンスストア チェーン、セブン-イレブン・ジャパン。その躍進の背景には他社に先駆けて投資、展開してきた積極的な IT 活用があると言われています。しかし、2000 年代以降のいわゆる IT ジャイアントの台頭や、スマートフォンの普及に伴う社会全体の急速なデジタル化に比して、自社の複雑化したシステムの構造がレガシー化し、抜本的な改革が求められるように。ここでは、そんな同社が将来に向けたデジタル トランスフォーメーション(DX)をはじめとする IT 戦略を支えるため、2020 年 9 月から稼働開始したデジタルデータ活用基盤「セブンセントラル」について、その開発を担当した IT 部門の責任者とエンジニアの皆さん

                                                                株式会社セブン-イレブン・ジャパン:これからの IT 戦略を支えるデジタルデータ基盤「セブンセントラル」を Google Cloud 上に構築 | Google Cloud 公式ブログ
                                                              • BigqueryでUNNESTを使いこなせ!クエリ効率100%!!最強!!

                                                                どうも!BIチームの小林です! 今回は、 BigqueryでUNNESTをうまく使えば、 見やすくてしかも効率が良いクエリを書けるんです! ということをやっていきたいと思います! はい。 私の好きなものは Fortnite、RainbowSixSiege、ゲーム配信 です。 当記事は、ゲーム配信だと思って読んでください。 ちなみになんですが、前回2018年のアドベントカレンダーでは、 BigqueryでStandardSQL書くときに使えるTipsをいくつか紹介したので、 「Bigqueryは記法に癖があって難しいよ〜」 「すたんだーどすぃーくえるってなんですか?」 という人は、是非見てください!! ↓↓

                                                                  BigqueryでUNNESTを使いこなせ!クエリ効率100%!!最強!!
                                                                • 野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball

                                                                  最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて 単位やフォーマットが不揃いで それでも仕事(もしくは趣味の分析)をこなすため, いい感じの使いやすいデータセットにしないと(使命感) という機会は非常に多いです. いや, 機会が多いというより多かれ少なかれ毎日戦っている気がします. 今回は, ちょっとした分析とお遊びのため, メジャーリーグの公式データサイト「Baseball Savant」のデータを使ったBigQueryデータベースを作りたくなったので, クローラーでBaseball Savantのデータを取ってCSVにして CSVからデータを集計したり整えたりしていい感じの単位にして BigQueryから使えるようにしてみたよ! というタスクをGoogle Cloud Platform

                                                                    野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball
                                                                  • GA4データの分析用SQLまとめ|Dentsu Digital Tech Blog

                                                                    電通デジタルの中野です。 今回は、Google Analytics 4(GA4)をBigQueryで分析する際によく使うSQLをまとめました。 自身の業務でもよく使用するため備忘録的な側面もありますが、参考までに活用いただければと思います。 前提BigQueryに連携したGA4データにはいくつか前提条件があります。 その中で最も大きな点は、GA4のレポート画面と数値が一致しない場合がある、ということです。 詳細については、こちらのページに記載があります。 ユーザー数やセッション数といったユニーク数を算出する場合、データ量が多いと計算に時間がかかります。そこでGA4レポートではHyperLogLogというアルゴリズムを使用して近似値を算出しています。 精緻な値を計算する場合は、現状BigQuery以外に手段がありません。こういった制約からもBigQuery上でSQLを使った分析をする場面は増

                                                                      GA4データの分析用SQLまとめ|Dentsu Digital Tech Blog
                                                                    • dbtとDataformを比較し、dbtを使うことにした - Attsun blog

                                                                      TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか?選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ

                                                                      • GitHub - malloydata/malloy: Malloy is an experimental language for describing data relationships and transformations.

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - malloydata/malloy: Malloy is an experimental language for describing data relationships and transformations.
                                                                        • 慣れてきたらチャレンジしてみよう!BigQueryのパフォーマンス最適化 - ABEJA Tech Blog

                                                                          自己紹介 I/Oや通信的観点 分割されたクエリを取り除く 過剰なワイルドカード テーブルを避ける テーブルを日付別にシャーディングすることを避ける & テーブルの過度な分割を回避する JOIN を使用する前にデータを削減する コンピューティング的観点 結合パターンを最適化する 結合で INT64 データ型を使用して費用を削減し、比較パフォーマンスを向上させる 同じ共通テーブル式(CTE)を複数回評価するのを避ける クエリのアンチパターン 自己結合 データスキュー 公式にはない項目ですが個人的に気になったので 単一行を更新または挿入する DML ステートメント 非正規化の検討 ネストされて繰り返されているフィールドを使用する 採用情報 自己紹介 こんにちは、真壁(@Takayoshi_ma)です。先日読んだGoogle Cloudの公式ドキュメントが個人的に勉強になったので内容についてまとめ

                                                                            慣れてきたらチャレンジしてみよう!BigQueryのパフォーマンス最適化 - ABEJA Tech Blog
                                                                          • 逆ジオコーディングな地図ダッシュボードを10分で作る - 下町柚子黄昏記 by @yuzutas0

                                                                            この記事はデータ活用 Advent Calendar 2018 - 16日目の記事です。 ダッシュボードに関する登壇をしたところ「自社でも地図データを活用したい」と相談いただいたのでTipsを共有します。 もくじ もくじ はじめに この記事のゴール 解決したい課題 実行方針 完成イメージ 注意点 作業手順 1: リーガルチェック 2: データの準備(独自データ:アクセスログ) 3: データの準備(公開データ:ジオコーディング用の変換テーブル) 4: データの準備(公開データ:都道府県マスタ) 5: SQLを書く 6: DataStudioでデータを読み込む 7: DataStudioで地図を描く おわりに はじめに この記事のゴール WEBメディア訪問者のIPアドレスを元に、エリア別のPV数を可視化します。 (データが整備されていたら&リーガルチェックがOKなら&情シス部門に権限を縛られて

                                                                              逆ジオコーディングな地図ダッシュボードを10分で作る - 下町柚子黄昏記 by @yuzutas0
                                                                            • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

                                                                              タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

                                                                                分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
                                                                              • 現地参加してきたGoogle Cloud Next '23で発表されたBigQuery data clean roomsを紹介します! - TVer Tech Blog

                                                                                こんにちは。データエンジニア 遠藤(TVerにJOINしてまだ3ヶ月)とアドテクエンジニア 鶴貝です。 2023年8月29日~31日にGoogle Cloudの技術カンファレンスGoogle Cloud Next '23がサンフランシスコで開催されました。(4年ぶりのオフライン開催) 弊社では、民放公式テレビ配信サービスTVer・TVer広告のデータ分析で用いるビッグデータ基盤にGCPを採用しています。そこで、先述したエンジニア2名がGoogle Cloud Next '23に現地参加させて頂きました。 Next '23ではGCPの新機能リリースや世界中での活用事例が多く紹介されました。本記事では、Next '23で発表された話題のうち、BigQuery data clean roomsを重点的に報告します。 さらに、サンフランシスコまではるばる出向きましたので、撮って出し写真と共にGoo

                                                                                  現地参加してきたGoogle Cloud Next '23で発表されたBigQuery data clean roomsを紹介します! - TVer Tech Blog
                                                                                • エムスリー、データ基盤チームはじめました - エムスリーテックブログ

                                                                                  エンジニアリンググループ、データ基盤チームの鳥山(@to_lz1)です。 私は過去何度かデータ基盤に関連する記事を出していますが、データ基盤チームという肩書を付けるのは今回が初めてとなります。それもそのはず、エムスリーでは2023年4月に新たにデータ基盤チームを新設したからです*1。 エンジニアリンググループ紹介資料にシュッと追加された「データ基盤チーム」 そこでこの記事では、チーム創設の背景や立ち上げ期に行ったこと、そして今取り組んでいることについて紹介させて頂きます。 データ基盤のみならず、エムスリーエンジニアリンググループの雰囲気を知る一助になれば幸いです。ということで、この記事は 【データ基盤チーム ブログリレー1日目】です。 チーム創設の背景 データの品質担保 リアルタイムのデータ連携 より大規模・複雑なデータ活用 立ち上げ期にやったこと ミッションの策定 他チームとの連携強化

                                                                                    エムスリー、データ基盤チームはじめました - エムスリーテックブログ

                                                                                  新着記事