タグ

BigQueryと統計に関するdhesusan4649のブックマーク (5)

  • BigQueryの大本命!BigQuery データクリーンルームを実際に触ってみた

    こんにちは!Acompanyのマッケイです! 今回は、2023年8月にプレビュー版リリースされたBigQueryのデータクリーンルームについて、その概要を調べ、実際に触ってみたのでまとめてみました。 データクリーンルームとは データクリーンルームとは、プライバシーを保護しながら複数事業者のデータを連携できる環境のことです。 データの中でも特に個人情報といったセンシティブデータを連携するための環境として利用されることが多く、データクリーンルーム内ではデータは完全に保護されており、データを公開することなく共有、統合、分析などに行われます。 Analytics Hubとは? Analytics Hubは、組織間での大規模なデータ共有を可能とするデータ交換プラットフォームです。 Analytics Hubを利用することで、組織は煩雑なIAM管理やプロジェクト管理から解放され、「誰に」「どのようなデ

    BigQueryの大本命!BigQuery データクリーンルームを実際に触ってみた
  • dbt docsを使ったデータカタログの運用事例紹介

    テストの完了をゴールにしない! ~仮説検証を繰り返し、開発・QA・ユーザーが交流しながら開発することで見えてくる理想の姿~ - #RSGT2024 #DevSumi / Shift left and Shift right

    dbt docsを使ったデータカタログの運用事例紹介
  • [レポート] Fivetran x BigQuery x dbt で実現する”モダン データスタック”の概要と導入事例 #GoogleCloudDay | DevelopersIO

    2023年05月23日(火)〜25日(木)の3日間に渡って行われている『Google Cloud Day ’23 Tour』。 当エントリでは、23日に行われたセッション「Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例」の内容をレポートします。 セッション概要 当セッションの概要情報は以下の通りです。 セッションタイトル: Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例 登壇者: 瀬沼 裕樹氏(株式会社CloudFit 代表取締役) 林 祥子氏(Fivetran Inc. 営業 アカウント・エグゼクティブ) セッション概要: データ領域でトレンドになりつつある"モダン データスタック"。クラウド ネイティブな技術を利用することで、導入・運用コストを下げて、効率的にデータ活用を

    [レポート] Fivetran x BigQuery x dbt で実現する”モダン データスタック”の概要と導入事例 #GoogleCloudDay | DevelopersIO
  • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

    こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

    BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
  • SQL で Matrix Factorization を実装しました - TVer Tech Blog

    こんにちは データを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。 現状 さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。 レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。 これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。 ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。 大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3

    SQL で Matrix Factorization を実装しました - TVer Tech Blog
  • 1