[2ページ] dwhの人気記事 225件 - はてなブックマーク

41 - 80 件 / 225件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dwhの検索結果41 - 80 件 / 225件

DWHにおけるデータモデル　定番から最新トレンドまで
- 59 users
- speakerdeck.com/ryotas_data
- テクノロジー
- 2022/12/23
Kubernetesでアプリの安定稼働と高頻度のアップデートを両立するためのプラクティス / Best Practices for Applications on Kubernetes�to Achieve Both Frequent Updates and Stability
- DWH
- あとで読む
- 分析
- 設計
- DB
- architecture
Snowflake の Copilot が優秀すぎる件について
- 59 users
- ex-ture.com
- テクノロジー
- 2024/05/03
マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください！ご要望の内容を記事に起こします！メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C
- SQL
- snowflake
- AI
- あとで読む
- 仕事
[動画公開] データ分析を支える技術データモデリング再入門 #devio2022 | DevelopersIO
- 58 users
- dev.classmethod.jp
- テクノロジー
- 2022/07/25
データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。セッション概要「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH（データウェアハウス）のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、
- 分析
- あとで読む
- データ
- AWS
dbtを触ってみた感想 - yasuhisa's blog
- 58 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/25
データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている前職でも仕事の一部で使っていた開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較細かいノウハウ手元や本番環境での動作 Argo Workflowとの連携環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える既存
- dbt
- bigquery
- データ基盤
- データ
- SQL
- DWH
- あとで読む

データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 58 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次株式会社10X 株式会社ビットキー株式会社エブリー株式会社Luup Sansan株式会社株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で
データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/14
というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。背景 / 前提データウェアハウスのテーブルを社内に広く提供したい初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともあるデータウェアハウスのバージョンを場面に応じて複数提供できると都合がよい一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい
累計参加者8,500名！ #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
- 56 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/24
primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/
- データ基盤
- あとで読む
開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
- 56 users
- www.yasuhisay.info
- テクノロジー
- 2021/01/23
Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。使ってみようとした背景 Dataformについて試してみてどうだったかよかったまだまだこれからっぽいところ & 気になり参考使ってみようとした背景今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも
BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
- 56 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2022/01/04
この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。目次この記事の概要目次宣伝実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか最後に
- BigQuery
- SQL
- データ基盤
- データ分析
- DWH
- あとで読む
- GCP
- SaaS
dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
- 55 users
- speakerdeck.com/10xinc
- テクノロジー
- 2022/04/07
DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。
- dbt
- データ
- あとで読む
- sql
- ツール
タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
- 50 users
- tech.timee.co.jp
- テクノロジー
- 2023/10/23
はじめにこんにちはokodoonですタイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います全体構成弊社のBigQueryは以下の4層にレイヤリングされていますそれぞれの役割は以下のような切り分けになっていますレイヤー名役割データレイク層複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化ステージング層複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層ソースシステムのデータ形式を分析に適した形に変換する層ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成データマート層特定用途に対して1:1で作成されたテーブル群を格納する層ダッシュボード用テーブル/Looker用テーブル/GoogleSh
CI/CDのボトルネックを把握できていますか？BigQueryでビルド情報ダッシュボードを構築した話
- 47 users
- speakerdeck.com/kesin11
- テクノロジー
- 2021/09/03
https://event.cloudnativedays.jp/cicd2021/talks/1152 開発人数が多く、規模の大きいプロダクトでは最終的な成果物をビルドするだけで1時間以上かかってしまうことも珍しくありません。ですが最初からそれほど時間がかかっていたわけではなく、時間とともに巨大化するコードベース、追加されたステップなどによりいつの間にかどこかの処理がボトルネックとなっていることが多いでしょう。 CIサービスの多くは成功/失敗の情報、全体としてのビルド時間の情報は見やすく提供していますが、各ステップの時間やステップのエラー率などの細かい粒度の情報を時系列で確認する機能までは提供されていないことが多いです。そのため、ボトルネック箇所を特定するためには過去の生ビルドログを自分の目で確認するコストが高い作業が必要でした。そこで、Jenkins, CircleCI, Githu
- CI
- BigQuery
- DevOps
- あとで読む
- cd
BigQueryで行う、機械学習のためのデータ前処理
- 47 users
- speakerdeck.com/hiroaki8388
- テクノロジー
- 2019/12/18
知識と実践を紡ぐGenAI / Connecting Knowledge and experience with GenAI
入社４ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
- 46 users
- creators.bengo4.com
- テクノロジー
- 2024/04/19
データ分析基盤室の otobe（𝕏@UC_DBengineer）です。事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい
BigQueryで傾向スコア分析｜Dentsu Digital Tech Blog｜note
- 46 users
- note.com/dd_techblog
- テクノロジー
- 2019/12/25
電通デジタルで機械学習エンジニアをしている今井です。本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。広告効果ってあったの？広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン（例えば、購入金額や継続期間など）の差である、と言えます。しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。これを反実仮想（counterfactual）と呼びます。そこで提案されたのが平均処置効果（average treatment effect, ATE）です。広告に接触したユーザー群（𝑤=1）と接触していないユーザー群（𝑤=0）とのその後のコンバージョン（𝑦 ）の差を広告効果とするものです。ここで、介入（広告に接触する）の有無以外の条件が公平になるようにユーザー郡が分かれていれ
- BigQuery
- あとで読む
DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
- 46 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/15
こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。データ基盤の全体像まずは、簡単にデータ基盤の全体像を紹介します。左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど
BigQuery で ROW_NUMBER(), RANK() を使うな！
- 43 users
- zenn.dev/smzst
- テクノロジー
- 2022/06/19
どういうことかたとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量（計算量）が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい
- BigQuery
- GCP
- performance
- database
- DB
SQL で Matrix Factorization を実装しました - TVer Tech Blog
- 43 users
- techblog.tver.co.jp
- テクノロジー
- 2022/07/14
こんにちはデータを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。現状さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3
- BigQuery
- SQL
- 機械学習
- 統計
- データ
統計ダッシュボード機能を BigQuery と BI Engine で実装する
- 41 users
- zenn.dev/team_zenn
- テクノロジー
- 2023/07/29
先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ（BigQuery）と記事データ（Cloud SQL）をどうJOINさせるかが課題外部接続でBigQueryからCloud SQLつなぐことにした統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにしたスケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめるチャートは Chart.js
Snowflakeがもたらした noteのデータ分析の進化
- 41 users
- speakerdeck.com/littlekbt
- テクノロジー
- 2022/10/26
DATA CLOUD WORLD TOUR JAPAN Day 2 15:05-15:35 の発表のスライドです。
- データ
- あとで読む
Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
- 40 users
- blog.engineer.adways.net
- テクノロジー
- 2022/07/22
こんにちは佐藤です。今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。背景 Dataformについて導入して良かったこと依存関係がわかりやすいクエリのテスト工夫した点フォルダの構成についてデータセット名、テーブル名についてシャーディングテーブルの定義について最後に背景現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい
自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
- 39 users
- blog.brainpad.co.jp
- テクノロジー
- 2022/07/07
「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster（アールトースター）」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します！こんにちは、プロダクトビジネス本部開発部の柴内（データ基盤チーム）です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。背景データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイクデータレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス
- BigQuery
- SQL
- データ
- あとで読む
- Test
- data
[動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO
- 38 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/19
データアナリティクス事業本部の石川です。今週より開催しているクラスメソッド主催のオンラインカンファレンス、Developers.IO 2020 CONNECTにて「データ分析を支える技術 DWH再入門」というテーマにてセッション動画と資料を公開いたしました。セッション概要分かりそうで分からないDWH、何のために導入して、どのようにデータを管理・蓄積するのか、どうやって利用するのか、普通のDBと何が違って、アーキテクチャどうなっているかなど、コンサルの現場でよく尋ねられる疑問について解説します。本セッションでは、DWHを理解するのに必要となる基礎的な用語について一通り網羅するように心がけました。DBは使ったことがあるけど、DWHはよく分からないという人には最適なセッションです。 DWH再入門 DWHの特性ディメンジョナルデータモデル分析データの利用一般的なDBとDWHの相違点 D
- DWH
- あとで読む
- db
- database
- データ
データマーケティングの強い味方！？BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例｜田口信元
- 38 users
- note.com/guchey
- テクノロジー
- 2023/08/21
データマーケティングの強い味方！？BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します
- bigquery
- LLM
- 分析
- 機械学習
- データ
- AI
6,000スロットを使うBigQueryのリソース配分最適化への挑戦
- 38 users
- tech.plaid.co.jp
- テクノロジー
- 2020/03/31
BigQueryのリソース配分最適化のため、プロジェクトへのコミットメントの割り当てパターンや、スロット消費の多いクエリの見つけ方などについて調査した結果をまとめてみました
- bigquery
- あとで読む
BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG
- 37 users
- techblog.zozo.com
- テクノロジー
- 2022/11/22
こんにちは、最近気になるニュースはサザエの学名が数年前に初めて命名されたこと1な、MLデータ部データ基盤ブロックの塩崎です。BigQueryのストレージに関する新料金プランが先日発表されたので、その検証をしました。我々の環境では年間で数千万円という費用削減を達成できることが分かりましたので、BigQueryに多くのデータを蓄積している会社は是非お試しください。ストレージ費用の悩みデータ基盤を長期間運用していると、データ量の増加が問題になることがしばしばあります。特にユーザーの行動ログやスタースキーマにおけるファクト系テーブルなどはデータがどんどん蓄積されます。古いデータを削除することでデータ量の増加を緩和できますが、それでもサービスの成長に伴いデータ量は増加する傾向になります。 BigQueryはコンピューティングとストレージが高度に分離されているので、初期のAmazon Redshi
BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita
- 36 users
- qiita.com/na0
- テクノロジー
- 2020/06/17
BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらいBigQueryDNNxgboostAutoMLBigqueryML はじめに日本時間2020-06-17のリリースで、BigQuery MLにAutoML Tables、XGBoost、DNNが来ました。release-notes#June_16_2020 おさらいに、BigQuery MLで何ができるか再整理します。追記: 日本時間2020-07-02のリリースで、BigQuery MLにARIMAも来ましたね。日本時間2020-06-28のリリースノートでエラーになってたのですが、リリース日がしれっと修正されてました。release-notes#July_01_2020 BigQuery MLでできること概要 BigQueryでStandard SQLを使って、機械学習モデルを
DWH改善に生かす! 入門elementary - yasuhisa's blog
- 36 users
- www.yasuhisay.info
- テクノロジー
- 2024/01/31
前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利ですしかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります本エントリではelementaryの成果物や役に立つ実例を多めに紹介します前提: これは何? 3行まとめ背景: DWHとデータ品質 Observability / Data Observabilityについて
[レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
- 36 users
- dev.classmethod.jp
- テクノロジー
- 2021/04/05
[レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました（SQLを触っている方はピンとくるイベント名ではないでしょうか）。「Fishtown Analytics社って何やってる会社？」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。イベント概要公式 Kimball in
BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
- 35 users
- www.yasuhisay.info
- テクノロジー
- 2020/05/18
自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co
- DataGovernance
- BigQuery
- *infra
- *data
- gcp
日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ！ - CARTA TECH BLOG
- 33 users
- techblog.cartaholdings.co.jp
- テクノロジー
- 2020/10/07
3行まとめ背景データの流れそのままコピーするだけのLambda 外部テーブルを使おうゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む定期的に外部テーブルにクエリして結果を保存するまとめ 3行まとめ BigQueryはいいぞ外部テーブルはすごいぞ Scheduled Queryも便利だぞこんにちは。ひむ（@himu）です。株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。今回は、そんな
- BigQuery
- あとで読む
- GCP
- aws
グーグルのHTAP対応PostgreSQL互換DB「AlloyDB」、データ分析性能は最大100倍
- 32 users
- xtech.nikkei.com
- テクノロジー
- 2022/05/24
米Google（グーグル）は2022年5月に開催した年次カンファレンス「Google I/O 2022」で、新しいデータベース（DB）サービスである「AlloyDB for PostgreSQL」を発表した。グーグルが2022年5月12日（米国時間）に発表したAlloyDB for PostgreSQLは、同社が独自に開発したDBのサービスで、オープンソースソフトウエア（OSS）のリレーショナルDB（RDB）である「PostgreSQL」と互換性がある。ユーザーはPostgreSQL用のSQLクエリーや拡張機能がそのまま利用できる。 AlloyDB for PostgreSQLの特徴は、トランザクション処理（OLTP）性能とデータ分析（OLAP）性能を両立した点だ。グーグルによればAlloyDB for PostgreSQLは標準的なPostgreSQLに比べて、同じ数のCPUを使用する
Databricks ＋ BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
- 32 users
- tech.buysell-technologies.com
- テクノロジー
- 2022/10/28
テクノロジー戦略本部データサイエンス部の近藤です。バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、新たにDatabricksの導入を決めました。バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとはバイセルの今の課題と未来どうやって課題を解決するのかなぜApache Sparkなのか Databricksの利点 Databricks導入後の世界データサイエンス部の野望 SSOTとはデータマネジメントでは「S
- データ
- あとで読む
DynamoDB から Redshift へデータ移送する話（RedshiftのSUPER型の利用事例） - KAYAC engineers' blog
- 31 users
- techblog.kayac.com
- テクノロジー
- 2021/04/26
こんにちは。技術部のSRE所属の池田です。この記事では、昨年の2020年12月にPreviewが発表されたRedshiftの汎用データ型 SUPER の利用事例として、DynamoDBからRedshiftへデータ移送する話をします。汎用データ型SUPERは、2020/12/9に『Amazon Redshift が、ネイティブ JSON と半構造化データ処理のサポートを発表 (プレビュー) 』という記事が公開され、2021年04月時点でもPreview状態です。このSUPER型は、ログやDynamoDBストリームに見られるJSONおよび半構造化データと非常に相性がよく、使い始めてみると【素晴らしい！】と言う感想を得るので、皆様も是非使ってみてください。背景 2021年4月現在では、Tonamel という大会プラットフォームサービスのデータ基盤構築業務・整備を行っております。 To
- redshift
- DynamoDB
- aws
【書評】データレイク構築・運用のノウハウを網羅的に学び始められる！『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
- 31 users
- dev.classmethod.jp
- テクノロジー
- 2020/07/21
先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました！個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました！7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目
BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
- 31 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/01/23
はじめにこんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエースデータソリューション部の松本です。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue
- BigQuery
- LLM
- RAG
- gcp
- AI
分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog
- 31 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/09/09
こんにちは、データ基盤グループの吉本と吉田(id:syou6162)です。モノタロウでは基本的にはBigQueryを定額料金で利用していますが、利用者の多い時間帯はFlex Slotsも併用しています。本エントリでは、Flex Slotsの適切なスロット数を定量的に決めるために行なった試行錯誤について紹介します。モノタロウでのBigQueryの利用状況課題感課題感1: 適切なFlex Slotsのスロット数をどう決めるか課題感2: 過去の期間との実行時間は単純には比較できない解決策解決策1: 同一のクエリを定期的に動かし、実行時間をCloud Monitoringで計測解決策2: 計測用オンデマンドのGCPプロジェクトでもクエリを実行し、理想状態との相対実行時間を知るまとめモノタロウでのBigQueryの利用状況モノタロウでは様々な意思決定の場面でデータ活用が行なわれて
オラクル、MySQLにOLAP用の独自インメモリデータベースエンジンを搭載、「MySQL Analytics Engine」をOracle Cloud上で提供開始
- 30 users
- www.publickey1.jp
- テクノロジー
- 2020/12/03
米オラクルは、Oracle Cloud上での新しいデータベースサービス「Oracle MySQL Database Service Analytics Engine」（以下、MySQL Analytics Engine）を発表しました。オラクルは今年の9月に、最新のOracle Cloud基盤に最適化したMySQLのマネージドサービスとして「Oracle MySQL Database Service」を発表しています。今回発表されたMySQL Analytics Engineは、このMySQL Database Serviceに大規模データ分析機能を追加するものです。通常のデータベースエンジンであるInnoDBに対して最大で400倍高速にOLAPのクエリを実行できます。具体的にはオラクルが独自に開発したカラム型の分散インメモリデータベースエンジンをMySQL Database Se
複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
- 30 users
- blog.engineer.adways.net
- テクノロジー
- 2022/03/25
こんにちは、インフラの天津です。今日は複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。前提モチベーション AWS Security Hub とは構想ツール・サービスの選定検出結果データのエクスポートについて可視化用データベース（またはクエリサービス）と可視化ツールについて構築全体像検出結果データエクスポート検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->
AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
- 30 users
- www.m3tech.blog
- テクノロジー
- 2022/10/31
こんにちは、10月後半の2週間、エムスリーのAI・機械学習チームでインターンをしていた後藤です。今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話背景 BigQuery Emulatorの登場 bqemulatormanagerの作成スキーマの自動取得並列処理への対応テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイントインターンの話進め方について AI・機械学習チームについて終わりに BigQueryのローカルテスト基盤を作った話背景 AI・機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望