タグ

BigQueryに関するymym3412のブックマーク (17)

  • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

    はじめに こんにちは、クラウドエース データソリューション部の松です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

    次世代データ基盤:データレイクハウスを Google Cloud で実現する
  • GitHub - qnighy/bqpb: BigQuery UDF to parse protobuf messages

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

    GitHub - qnighy/bqpb: BigQuery UDF to parse protobuf messages
  • 派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog

    3行まとめ テーブルの撤退時にはテーブルの参照回数を見ることが多いと思いますが、テーブル単独の参照回数を見るだけだと不十分なことが多いです 派生先のテーブルの参照回数まで考慮すると、テーブルが撤退できるか安全に判断することができます リネージ上の親子関係をWITH RECURSIVEで考慮しながら、累積参照回数をSQLで導出できるようにし、安全にテーブル撤退を判断できるようにしました 3行まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 アイディア: 累積参照回数を計算する 実装 テーブル間の親子関係を抽出する WITH RECURSIVEでテーブルの親子関係を辿る テーブルの親子関係を考慮しながら、累積参照回数を計算する まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 データエンジニアやアナリティクスエンジニア仕事をしていると、

    派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog
  • ZennにみるCloudRunとBigQueryによるアプリケーション構築 / zenn-cloudrun-bigquery-serverless

    Zennは、クラスメソッドが展開する技術者向けの知識共有プラットフォームです。Cloud Runを中心としたGoogle Cloudのソリューションをメインで使用しており、スケーラブルなWebアプリケーションとなっています。 このセッションでは、「サーバーレスとはなにか」という部分から改めてディスカッションし、アプリケーションをスケーラブルに、ビジネスに集中するという目的に対してZennがどうアプローチしているかを解説します。 また、Google Cloud を利用するモチベーションのひとつにBigQueryの存在があると思います。Zennでも統計機能に利用しており、アプリケーションとどのように統合しているか紹介、それがどの程度 Google Cloud を使う理由になるか議論します。 サーバーレスアプリケーションを組むときに、みなさまの選択肢をひとつ増やし、結果的によりニーズに合致したア

    ZennにみるCloudRunとBigQueryによるアプリケーション構築 / zenn-cloudrun-bigquery-serverless
  • AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ

    こんにちは、10月後半の2週間、エムスリーのAI機械学習チームでインターンをしていた後藤です。 今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。 他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話 背景 BigQuery Emulatorの登場 bqemulatormanagerの作成 スキーマの自動取得 並列処理への対応 テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイント インターンの話 進め方について AI機械学習チームについて 終わりに BigQueryのローカルテスト基盤を作った話 背景 AI機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望

    AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
  • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

    こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

    BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
  • SQL で Matrix Factorization を実装しました - TVer Tech Blog

    こんにちは データを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。 現状 さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。 レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。 これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。 ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。 大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3

    SQL で Matrix Factorization を実装しました - TVer Tech Blog
  • 良く使うBigQuery関数

    はじめに 記事は、社内の非エンジニア向けの BigQuery SQL入門ドキュメント の BigQueryの関数編 を公開したものです 良く使う関数はデータや分析の特性によって異なるので、あくまでも独断と偏見に基づく関数セレクションです カテゴリ内の関数の並び順はアルファベット順ではなく、個人的に良く使っていると思う順です 慣れてきたら BigQuery の公式リファレンス を確認することをおすすめします MySQL や PostgreSQL の利用経験はあるが BigQueryは初めてという社内メンバーをメインターゲットにしているので、そことの違いを補足しています 分析関数はBigQuery固有のものでもないので、他サイト等の解説を参考ください 変換関数 CAST

    良く使うBigQuery関数
  • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

    こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

    SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
  • BigQuery で統計処理を完結させる | MoT Lab (GO Inc. Engineering Blog)

    はじめまして、AI技術開発部 分析グループ の浅見です。 Mobility Technologies(MoT)では、BigQuery上でログの保存やデータマート運用を行い、集計や分析をした上で、LookerやGoogleスプレッドシートで効果検証などをレポート化しています。BigQueryはとても強力なツールなのですが、統計処理を入れようとすると、PythonやRなどの別モジュールを構築する必要があり、メンテナンスコストが発生してしまいます。 そんな時のため、BigQuery内で統計処理を完結させるちょっとしたTipsを紹介します。 UDFを最大限活用しましょう!記事の基的な発想としては、 BigQueryでは、統計処理を行う関数はそこまで充実していません。例えば、t分布の累積分布関数(CDF)さえ計算できれば、t検定のp値を得ることができるのですが、BigQueryの統計集計関数では

    BigQuery で統計処理を完結させる | MoT Lab (GO Inc. Engineering Blog)
  • BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた

    はじめに皆様、こんにちは。Google Cloud Japan Customer Engineer Advent Calendar 2020 の 8 日目は 今年公開された BigQuery のリサーチペーパーを読んでみて個人的に興味があった点をまとめてみようと思います。2020 年で 10 周年を迎えた BigQuery の進化の過程が理解できるので皆様もお時間あればご一読を! TL;DRこのホワイトペーパーは、Dremel (BigQuery のクエリエンジン) が採用している主要なアーキテクチャや考え方(これらのいくつかはクラウドネイティブなデータウェアハウスではトレンドとなりつつあります)がこの10 年間でどのような進化を経て現在の BigQuery になったのかを、Seattle Report on Database Research というレポート内で述べられている主要な 5

    BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた
  • Google の SQL parser/analyzer の ZetaSQL とは何であるか

    2019年4月に GoogleSQL parser/analyzer の ZetaSQL が公開されました。 現在 BigQuery Standard SQL や Cloud Spanner で実装されている SQL 方言であり、 Cloud Next 2019 で BigQuery UI から Cloud Dataflow で実行されるパイプラインを記述できる機能として発表された Cloud Dataflow SQL にも使われることがツイートからも見て取れます。 ZetaSQL については Google の外の人がまともに言及しているのを見たことがなく、聞いたことがないか様子見という人が多いと思うので分かっていることを書いていきます。 既存の文献から見る素性ZetaSQLSpannerSQL 実装について書かれた Spanner: Becoming a SQL Sys

  • 目指せ!!SQLの配列マスター - Qiita

    はじめに 最近仕事でBigQueryを触り始めたのですが、配列の処理に悪戦苦闘していました。 この記事では、私がBigQuery上でより上手く配列を扱うために調べたコトや取り組んだコトをまとめました。 なお、この記事ではUDFでJSを使わない方針で記述しています。 BigQueryで配列に関わる命令一覧 https://cloud.google.com/bigquery/docs/reference/standard-sql/arrays?hl=ja https://cloud.google.com/bigquery/docs/reference/standard-sql/functions-and-operators?hl=ja 上記の公式ドキュメントから配列が関係するものを引っ張ってきただけですので、あしからず。 操作系 ARRAY: サブクエリを配列化 ARRAY_CONCAT: 配

    目指せ!!SQLの配列マスター - Qiita
  • Google BigQuery: The Definitive Guide

    Get full access to Google BigQuery: The Definitive Guide and 60K+ other titles, with a free 10-day trial of O'Reilly. There are also live events, courses curated by job role, and more.

    Google BigQuery: The Definitive Guide
  • Jupyter ノートブックで BigQuery データを可視化する  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    Jupyter ノートブックで BigQuery データを可視化する  |  Google Cloud
  • クレジットカードは不要 : クエリを無料で試せる BigQuery サンドボックス | Google Cloud 公式ブログ

    ※この投稿は米国時間 2019 年 2 月 8 日に Google Cloud blog に投稿されたものの抄訳です。 BigQuery サンドボックスは BigQuery を無料で試せるオプションです。新規ユーザーや学生の方でも、クレジットカードの情報を入力する必要はありません。 企業によって収集されるデータが増加の一途をたどる中、BigQuery のようなサーバーレス データ ウェアハウスこそが、ニーズに合わせてスケーリングできる唯一のプラットフォームだと、多くの組織は考えるようになっています。BigQuery は、大規模な一般公開データセットに対して高度なクエリを実行するための柔軟なウェブ ベースのインターフェースも提供します。こうした BigQuery のメリットを、BigQuery サンドボックスによって、まったく費用をかけずに体験できるようになりました。 Google のサーバ

    クレジットカードは不要 : クエリを無料で試せる BigQuery サンドボックス | Google Cloud 公式ブログ
  • BigQuery ML を実プロダクトで使うために調査した話 | Recruit Tech Blog

    社内のあちこちのサービスで検索の品質改善をしている大杉直也です。今回のブログは弊社にインターンシップとして参画した方の取り組みを紹介します。以下、インターン生の記事です。 ========================== 京都大学の佐藤万莉です。リクルートのインターンシップに参加し、リクルートグループのとあるサービスの機能改善に携わっていました。 今回改善を担当したのは、リクルートのサービス内の検索機能のランキングアルゴリズムです。ランキングアルゴリズムとは、検索したときに表示されるアイテムの並び順を決定するアルゴリズムのことです。 このランキングアルゴリズムを構成する一部に、アイテムの価格予測モデルがあります。このモデルは、検索クエリとアイテムの特徴量から価格を予測し、予測価格よりも実際の価格が安いアイテムをより上位に表示させるために用いられています。 この価格予測モデルの作成部分を

    BigQuery ML を実プロダクトで使うために調査した話 | Recruit Tech Blog
  • 1