[B! BigQuery] uokadaのブックマーク

GitHub - GoogleCloudPlatform/bigquery-utils: Useful scripts, udfs, views, and other utilities for migration and data warehouse operations in BigQuery.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

uokada 2024/06/22

リンク

BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた

はじめに皆様、こんにちは。Google Cloud Japan Customer Engineer Advent Calendar 2020 の 8 日目は今年公開された BigQuery のリサーチペーパーを読んでみて個人的に興味があった点をまとめてみようと思います。2020 年で 10 周年を迎えた BigQuery の進化の過程が理解できるので皆様もお時間あればご一読を！ TL;DRこのホワイトペーパーは、Dremel （BigQuery のクエリエンジン）が採用している主要なアーキテクチャや考え方（これらのいくつかはクラウドネイティブなデータウェアハウスではトレンドとなりつつあります）がこの10 年間でどのような進化を経て現在の BigQuery になったのかを、Seattle Report on Database Research というレポート内で述べられている主要な 5

uokada 2023/11/21

リンク

データ基盤は「データで」改善する − 中間テーブル作成の事例｜Mercari Analytics Blog

メルカリAnalytics Infraチームの@__hiza__です。この記事では、メルカリにおけるデータ基盤の整備について紹介します。今回は、膨大な生のテーブルについてどのテーブルから中間テーブル化すると効果的か、データにもとづいて優先順位を付けた事例を説明します。また、あわせて大規模なデータ基盤を改善する際に「データ基盤の利用状況のログ」が役立つことをお話したいと思います。中間テーブルを作る意義データ分析用の中間テーブルを作成する意義を簡単におさらいします。例えば、WebサービスのRDBに入っているデータで分析を行う場合に以下のような加工をしたテーブルを用意すると分析が便利になります。例) 生テーブルを分析に使いやすくする加工の例よくjoinして利用する複数のテーブルをあらかじめjoinしておくコード化された値を人が見て分かる値に変換しておく(都道府県コード01→北海道

uokada 2023/10/23

リンク

データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog

こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU

uokada 2020/05/02

リンク

大量データの転送にEmbulkを使ってみたら本当に楽だった - CARTA TECH BLOG

はじめまして。Zucks Affiliateでエンジニアをしている宗岡です。今回は、リアルタイム性は求めないけど、簡単に大量のデータをどこか別の場所に転送したい。という要望に答えてくれるEmbulkを紹介したいと思います。実際に導入に至ったきっかけや、運用上よくある課題なども触れていきたいと思います。同じ境遇の人が「簡単そうだしEmbulk使ってみようかな」となっていただければ幸いです。目次目次背景 Embulk以外にも出てきた案実際のEmbulkの導入と使い方 1. Embulkのインストールとセットアップ 2. 必要なプラグインのインストール 3. 設定ファイルを書く実務でcodecommitを使った例設定ファイルの書き方 4. まずはpreviewで問題なさそうか確認 5. 問題なさそうなのでrunして実行 Embulkの運用上、よくぶつかる課題 1. 重複に気付

uokada 2017/08/01

リンク

Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

uokada 2014/05/19

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

BigQueryに関するuokadaのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス