[B! DWH] nminoruのブックマーク

RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解

第11回 RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解データウエアハウスにまつわるトラブル今回はデータウエアハウス（DWH）導入時のトラブル事例を紹介します。DWHとは、組織内の様々なシステムから得られる大量の構造化データや半構造化データを集積し、保存するデータ処理システムです。保存されたデータはBI（ビジネスインテリジェンス）やデータ分析に活用されます。現代のビジネス環境では、AI（人工知能）を活用した機械翻訳、質問応答、画像認識、機械学習などの技術が急速に進化しています。同様にBIツールを通じてビジネスデータを収集・整理・分析し、視覚的に理解しやすくする技術も進歩しています。蓄積されるデータの量は飛躍的に増加しています。データ管理と分析の重要性が高まる中で、膨大なデータの活用は企業や組織にとって欠かせなくなっています。 DWHの主な特徴は、データを

nminoru 2023/11/24

切口は面白いけど、内容は妙な記事だな。

DB
DWH

リンク

統計ダッシュボード機能を BigQuery と BI Engine で実装する

先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ（BigQuery）と記事データ（Cloud SQL）をどうJOINさせるかが課題外部接続でBigQueryからCloud SQLつなぐことにした統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにしたスケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめるチャートは Chart.js

nminoru 2023/07/29

リンク

Fivetran x BigQuery x dbt によるデータ活用・分析基盤構築 - ゼスト Tech Blog

はじめに近年、多くの業界においてDXを進める企業が増加し、ビジネス上の重要な意思決定においてデータの活用と分析の需要はますます高まっていると感じています。その手始めとして、データ分析用の基盤構築・整備が行われると思うのですが、その際の大変なことの１つとして、集計したいデータが複数のデータソースに存在し、それを定期的に集めてくることの実現ではないでしょうか。弊社でも最近、データ分析基盤の整備を行いました。その際の上記課題感に対しては、記事タイトルにもあるように、「Fivetran x BigQuery x dbt」といったサービスを組み合わせて解決・実現しました。なお、弊社のメインサービスは、在宅医療・介護業界向けの訪問スケジュールサービスなのですが、日々蓄積されていく訪問の結果データを元に、ビジネス上の次の一手に繋がるような指標にまとめ、見える化したZEST BOARDというサービ

nminoru 2023/07/03

リンク

AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

米Amazon Web Services（アマゾン・ウェブ・サービス、AWS）が2022年7月12日（米国時間）、データウエアハウス（DWH）をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

nminoru 2023/05/28

AWS
DWH

リンク

2022/01/21 レイクハウスアーキテクチャについて - /home/by-natures/dev*

最近よく Snowflake, Databricks 社のサービスを目にするようになり、私の所属している会社でも（部署は違いますが）Snowflake の導入を行っているようです。その中で "Data Lakehouse" という単語を目にしたので、どういう概念なのかを調べました。実際に動かしたりしていないので半分自分のための備忘録として書いているのですが、明らかに誤った説明があればご指摘ください。 Databricks 社からの論文このレイクハウスという考え方は GCP, AWS などのクラウドベンダーでも紹介されていて、徐々に広まりつつある考え方のように見えます。Google Cloud の data lakehouse の解説記事に、Databricks の方が筆頭著者の論文が紹介されていました： http://cidrdb.org/cidr2021/papers/cidr202

nminoru 2022/11/25

リンク

業界ベンチマークと誠実な競争 - Blog

注：本記事は(2021年11月12日)に公開された(Industry Benchmarks and Competing with Integrity)を翻訳して公開したものです。 Snowflakeを創設したとき、私たちは革新的なプラットフォームを構築することを目指しました。幸い私たちは、それまでのアーキテクチャやソリューションから得た何がうまくいき何がうまくいかないかという知識を活用することができたため、クラウドをどのように利用し、可能性の限界をどのように突破すればよいかを心得ていました。私たちは、使いやすく、「ただ求めたとおりに動く」システムを構築することにも焦点を当てました。パフォーマンスとスケール、管理のしやすさ、およびデータドリブン型のコラボレーションという点でリードするには、以前のソリューションに改善の余地が数多くあることも認識していました。同様に、私たちが実現させたい多くの

nminoru 2022/11/25

リンク

Snowflake Claims Similar Price/Performance to Databricks, But Not So fast!

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター（BSC）によるベンチマークテストの結果を共有し、Databricks SQL が競合 Snowflake よりも大幅に高速で高コスト効率であった結果もご報告しました。ブログの公開後、多くのお祝いのメッセージやお問い合わせなど、さまざまな反響をいただきました。その中には負け惜しみと思われる意見

nminoru 2022/04/20

リンク

今こそ注目！DWHにおけるデータモデリングとその歴史

近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

nminoru 2022/04/09

DWH

リンク

グーグル・クラウドが金融データをリアルタイム分析　バンド・プロトコルと提携

グーグル・クラウドは、分散型オラクルサービスであるバンド・プロトコル（Band Protocol）の技術を採用し、「金融の時系列データのリアルタイム分析」が可能になる。バンド・プロトコルの事業開発責任者であるケビン・ルー氏が明らかにした。ルー氏は15日、Bandの標準データセットが、Google BigQuery上に公開されたことを発表した。ルー氏は今回の提携について、「分散型のオラクルを使用するハイブリッドブロックチェーンとクラウドのアプリケーションを構築できるようにするための、グーグル・クラウドチームとのコラボレーションの1つ」と説明し、次のように続けた。「バンド・プロトコルのオラクルの柔軟な設計により、アプリケーションがブロックチェーンやWeb 2でネイティブに構築されているかどうかに関わらず、研究者や開発者があらゆる外部データソースやタイプに対して分散型オラクルを使用できるよう

nminoru 2021/04/16

リンク

Google BigQuery認証とDataDirectによるJDBC接続 - Qiita

はじめにこの記事では、DataDirect Google BigQuery JDBCコネクタがサポートするさまざまな認証を用いて、SQL／BI／ETLツールなどのあらゆるJDBC対応アプリケーションからリアルタイムにGoogle BigQueryへ接続する方法を記述します。この記事では、以下の2タイプ認証について述べます。１）サービスアカウントベース２）OAuth 2.0 では、DataDirect Google BigQuery JDBCコネクタを使用する際に、これら2つの認証スキームを使ってどのように認証できるのか？を見てみます。サービスアカウントベース認証 1、Google Cloud Consoleにログインします。画面左上にあるメニューより、[IAMと管理]-[サービスアカウント]を選択します（下図参照）。２、サービスアカウントのページで、最上部の[サービスアカウント

nminoru 2021/03/30

リンク

SQLで始める自然言語処理 - やむやむもやむなし

こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス！ adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

nminoru 2020/12/24

リンク

GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから

GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるからいまから6年前の2014年、当時ようやくDockerコンテナが世の中に知られるようになってきた頃、Googleはすでに社内のすべてのソフトウェアをコンテナ化しており、毎週20億個ものコンテナをクラウド上で起動していると発表し、多くのエンジニアを驚かせました。この大規模なコンテナの制御、すなわちオーケストレーションを行っていたのが同社内で「Borg」と呼ばれるソフトウェアです。そしてKubernetesはこのBorgを基に、Googleがオープンソース化したコンテナオーケストレーションソフトウェアだとされています。 Borgの大規模分散コンテナ基盤でBigQueryが成立するこのBorgによる大規模分散コンテナ基盤があるからこそ、BigQueryが安価に提供できるのだと、Google

nminoru 2020/12/12

リンク

クラウド基盤とそこに乗るデータベースはどう進化したか？オラクルのデータベースとクラウドの最新動向から考察する［PR］

クラウド基盤とそこに乗るデータベースはどう進化したか？オラクルのデータベースとクラウドの最新動向から考察する［PR］クラウドの登場と進化は、そのうえで稼働するデータベースにも影響を与えました。クラウドでは、システムを適切に分散させ相互に連係させるアーキテクチャがスケーラビリティや高可用性を実現し、効率性を高めて従量課金によるコストを下げることにつながります。一方でガバナンスや運用管理は、クラウドが提供するマネージドサービスや自動化ツール、自律型サービスなどを活用することが工数や人為的ミスを減らし、セキュアで統制のとれたシステムの実現につながります。そうしたクラウド時代のデータベースとしてまず最初に登場したのがオラクルのAutonomous Databaseです。 Autonomous Databaseとしてまず最初に提供されたのがデータウェアハウスにのための自律型データベースサー

nminoru 2020/12/09

OracleとかTeradataは高い価格帯で購入してくれるユーザーが多すぎてビシネスモデルの転換に手間取っている印象があるよな。

DWH

リンク

オラクル、MySQLにOLAP用の独自インメモリデータベースエンジンを搭載、「MySQL Analytics Engine」をOracle Cloud上で提供開始

米オラクルは、Oracle Cloud上での新しいデータベースサービス「Oracle MySQL Database Service Analytics Engine」（以下、MySQL Analytics Engine）を発表しました。オラクルは今年の9月に、最新のOracle Cloud基盤に最適化したMySQLのマネージドサービスとして「Oracle MySQL Database Service」を発表しています。今回発表されたMySQL Analytics Engineは、このMySQL Database Serviceに大規模データ分析機能を追加するものです。通常のデータベースエンジンであるInnoDBに対して最大で400倍高速にOLAPのクエリを実行できます。具体的にはオラクルが独自に開発したカラム型の分散インメモリデータベースエンジンをMySQL Database Se

nminoru 2020/12/03

PostgreSQL 9.5の頃にこれと同じコンセプトのものをカスタムインデッスクスとして作ったけど、今のPostgreSQLならI/Fも増えてもっとうまく作れるかも。

リンク

【速報】 AQUA (Advanced Query Accelerator) for Amazon Redshift がついにプレビュー開始になりました！ #reinvent | DevelopersIO

昨年のAWS re:Invent 2019で話題になったAmazon RedshiftのRA3インスタンスで利用できるAdvanced Query Accelerator (AQUA) for Amazon Redshiftのプレビューが遂に発表されました。お待たせしました。昨年のre:Inventで発表され大反響を呼んだAmazon Redshift RA3の為の高速キャッシュレイヤーAQUAがPrivate Previewからすべてのお客様にお試しいただけるようになりました。来年1月にGAとなる予定です。#reInvent AQUA for Amazon Redshift (preview) https://t.co/LJFApTDLKC — Junpei Ozono (@jostandard) December 1, 2020 Advanced Query Accelerator

nminoru 2020/12/02

AWS
DWH

リンク

Apache Iceberg - Apache Iceberg

What is Iceberg? Iceberg is a high-performance format for huge analytic tables. Iceberg brings the reliability and simplicity of SQL tables to big data, while making it possible for engines like Spark, Trino, Flink, Presto, Hive and Impala to safely work with the same tables, at the same time. Expressive SQL Iceberg supports flexible SQL commands to merge new data, update existing rows, and perfor

nminoru 2020/11/20

Presto
DWH

リンク

NTTデータとSnowflakeが資本業務提携、データ活用プラットフォームを強化して組織のデータドリブン化を加速 | IoT NEWS

2021-08-252020-09-16 NTTデータとSnowflakeが資本業務提携、データ活用プラットフォームを強化して組織のデータドリブン化を加速株式会社NTTデータとSnowflake Inc.は、2020年2月にソリューションパートナー契約を締結し、Snowflakeの顧客導入を進めてきた。そしてこのほど、Snowflakeビジネスの国内外での拡大に向けて資本業務提携に合意した。両社は、今回の資本業務提携を通じて以下の協業を推進することで、NTTデータグループの有するAI・データ活用領域を中心とするサービス・ソリューションと、Snowflakeが有するクラウド・データプラットフォームとの連携を通じて、AI・データ活用を起点にビジネスの成功を支援する「デジタルサクセスプログラム」を強化し、あらゆる組織のデータドリブン化を国内外で加速する。 NTTデータの提供するデータ活用プ

nminoru 2020/09/16

DWH
NTTData

リンク

Amazon Aurora, Redshift, DynamoDBのワークロード別性能を比較する - Qiita

はじめに AWSが提供する代表的なDBサービスには、クラウド前提で設計されたRDBのAmazon Aurora、データ分析特化型RDBのAmazon Redshift、ワイドカラム型DB(NoSQL)のAmazon DynamoDB1があります。AWSの各DBサービスの使い分けについては、一般的には概ね業務系システムのDBにはAuroraやDynamoDB、分析系システムのDBにはRedshiftを利用すれば良いとされていますが2、その根拠について定量的に確かめてみたいと思ったので、実際にOLTP/OLAPワークロード別の負荷をかけて各DBサービスの性能特性の違いについて確認してみました。 ※実際のシステム性能は様々な条件により変動します。あくまでも参考情報の一つとして捉えていただきますようお願いします。前提知識まず前提となる考え方として、OLTP/OLAPワークロードについて概説し

nminoru 2020/09/09

DWH

リンク

クラウドシフトでDWHが新ステージに！IT部門は自由度の低いアーキテクチャを我慢する必要はない

デジタルトランスフォーメーション（DX）の潮流に沿う形で、企業が取り扱うデータ量が膨れ上がっている。大量データから有用な洞察を導き活用することで、新しい顧客を引きつけ、適切な意思決定を下し、事業を強化できる。そうした中、データウェアハウス（DWH）の存在はこれまで以上に重要性を増している。ただし、クラウドシフトが進む中、DWHの在り方は大きく変化しようとしている。Data Warehouse as a service（サービスとしてのDWH）市場が、2019年の14億ドルから、2030年までには238億ドルになると予測されているのである。ソニーなど4000社を超える企業が活用するSnowflake DWHの変化を仕掛ける企業の1つとして注目されているのが、Snowflakeである。Snowflakeの日本法人でソリューションアーキテクトを務める本橋峰明氏に、DWH市場に投入するに当たっ

nminoru 2020/09/04

Cloud
DWH

リンク

RedshiftとAurora、知らないうちにどんどん進化するAWSの2つのデータサービス

こんにちは、アイティメディア＠IT編集部の三木です。これから「ほぼ月刊AWS」という連載をお届けします。パブリッククラウド、特にAmazon Web Services（AWS）に関しては情報があふれています。でも、次々に新しい発表が行われ、全体的な把握が難しくなってしまうことがよくあります。また、いったん発表された製品が急速に進化し、綿密にフォローしていないと取り残されてしまうことがあります。そこでこの連載では、AWSに関するさまざまな発表の「文脈」をお伝えしようと考えています。第1回は、アマゾンウェブサービスジャパン（以下、AWSジャパン）が2020年7月20日に行った、2020年4～7月におけるAWSサービスの最新情報説明から、主にエッジとデータ関連サービス、既存システムのクラウド移行に関する新たな動きについてまとめます。「エッジ」に向けた発表が目立つAWS、でも結局「エッジ」とは

nminoru 2020/07/27

AWS
DWH

リンク

はてなブックマーク

タグ

関連タグで絞り込む (46)

DWHに関するnminoruのブックマーク (93)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス