タグ

DWHに関するnminoruのブックマーク (93)

  • RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解

    第11回 RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解 データウエアハウスにまつわるトラブル 今回はデータウエアハウス(DWH)導入時のトラブル事例を紹介します。DWHとは、組織内の様々なシステムから得られる大量の構造化データや半構造化データを集積し、保存するデータ処理システムです。保存されたデータはBI(ビジネスインテリジェンス)やデータ分析に活用されます。 現代のビジネス環境では、AI人工知能)を活用した機械翻訳、質問応答、画像認識、機械学習などの技術が急速に進化しています。同様にBIツールを通じてビジネスデータを収集・整理・分析し、視覚的に理解しやすくする技術も進歩しています。蓄積されるデータの量は飛躍的に増加しています。データ管理と分析の重要性が高まる中で、膨大なデータの活用は企業や組織にとって欠かせなくなっています。 DWHの主な特徴は、データを

    RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解
    nminoru
    nminoru 2023/11/24
    切口は面白いけど、内容は妙な記事だな。
  • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

    先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

    統計ダッシュボード機能を BigQuery と BI Engine で実装する
  • Fivetran x BigQuery x dbt によるデータ活用・分析基盤構築 - ゼスト Tech Blog

    はじめに 近年、多くの業界においてDXを進める企業が増加し、ビジネス上の重要な意思決定においてデータの活用と分析の需要はますます高まっていると感じています。 その手始めとして、データ分析用の基盤構築・整備が行われると思うのですが、その際の大変なことの1つとして、集計したいデータが複数のデータソースに存在し、それを定期的に集めてくることの実現ではないでしょうか。 弊社でも最近、データ分析基盤の整備を行いました。その際の上記課題感に対しては、記事タイトルにもあるように、「Fivetran x BigQuery x dbt」といったサービスを組み合わせて解決・実現しました。 なお、弊社のメインサービスは、在宅医療・介護業界向けの訪問スケジュールサービスなのですが、日々蓄積されていく訪問の結果データを元に、ビジネス上の次の一手に繋がるような指標にまとめ、見える化したZEST BOARDというサービ

    Fivetran x BigQuery x dbt によるデータ活用・分析基盤構築 - ゼスト Tech Blog
  • AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

    Amazon Web Services(アマゾン・ウェブ・サービス、AWS)が2022年7月12日(米国時間)、データウエアハウス(DWH)をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。 サーバーレスと言っても、当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。 それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

    AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった
  • 2022/01/21 レイクハウスアーキテクチャについて - /home/by-natures/dev*

    最近よく Snowflake, Databricks 社のサービスを目にするようになり、私の所属している会社でも(部署は違いますが)Snowflake の導入を行っているようです。その中で "Data Lakehouse" という単語を目にしたので、どういう概念なのかを調べました。 実際に動かしたりしていないので半分自分のための備忘録として書いているのですが、明らかに誤った説明があればご指摘ください。 Databricks 社からの論文 このレイクハウスという考え方は GCP, AWS などのクラウドベンダーでも紹介されていて、徐々に広まりつつある考え方のように見えます。Google Cloud の data lakehouse の解説記事に、Databricks の方が筆頭著者の論文が紹介されていました: http://cidrdb.org/cidr2021/papers/cidr202

    2022/01/21 レイクハウスアーキテクチャについて - /home/by-natures/dev*
  • 業界ベンチマークと誠実な競争 - Blog

    注:記事は(2021年11月12日)に公開された(Industry Benchmarks and Competing with Integrity)を翻訳して公開したものです。 Snowflakeを創設したとき、私たちは革新的なプラットフォームを構築することを目指しました。幸い私たちは、それまでのアーキテクチャやソリューションから得た何がうまくいき何がうまくいかないかという知識を活用することができたため、クラウドをどのように利用し、可能性の限界をどのように突破すればよいかを心得ていました。私たちは、使いやすく、「ただ求めたとおりに動く」システムを構築することにも焦点を当てました。パフォーマンスとスケール、管理のしやすさ、およびデータドリブン型のコラボレーションという点でリードするには、以前のソリューションに改善の余地が数多くあることも認識していました。 同様に、私たちが実現させたい多くの

    業界ベンチマークと誠実な競争 - Blog
  • Snowflake Claims Similar Price/Performance to Databricks, But Not So fast!

    データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター(BSC)によるベンチマークテストの結果を共有し、Databricks SQL が競合 Snowflake よりも大幅に高速で高コスト効率であった結果もご報告しました。 ブログの公開後、多くのお祝いのメッセージやお問い合わせなど、さまざまな反響をいただきました。その中には負け惜しみと思われる意見

    Snowflake Claims Similar Price/Performance to Databricks, But Not So fast!
  • 今こそ注目!DWHにおけるデータモデリングとその歴史

    近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。 稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。 目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

    今こそ注目!DWHにおけるデータモデリングとその歴史
    nminoru
    nminoru 2022/04/09
  • グーグル・クラウドが金融データをリアルタイム分析 バンド・プロトコルと提携

    グーグル・クラウドは、分散型オラクルサービスであるバンド・プロトコル(Band Protocol)の技術を採用し、「金融の時系列データのリアルタイム分析」が可能になる。バンド・プロトコルの事業開発責任者であるケビン・ルー氏が明らかにした。 ルー氏は15日、Bandの標準データセットが、Google BigQuery上に公開されたことを発表した。ルー氏は今回の提携について、「分散型のオラクルを使用するハイブリッドブロックチェーンとクラウドのアプリケーションを構築できるようにするための、グーグル・クラウドチームとのコラボレーションの1つ」と説明し、次のように続けた。 「バンド・プロトコルのオラクルの柔軟な設計により、アプリケーションがブロックチェーンやWeb 2でネイティブに構築されているかどうかに関わらず、研究者や開発者があらゆる外部データソースやタイプに対して分散型オラクルを使用できるよう

    グーグル・クラウドが金融データをリアルタイム分析 バンド・プロトコルと提携
  • Google BigQuery認証とDataDirectによるJDBC接続 - Qiita

    はじめに この記事では、DataDirect Google BigQuery JDBCコネクタがサポートするさまざまな認証を用いて、SQL/BI/ETLツールなどのあらゆるJDBC対応アプリケーションからリアルタイムにGoogle BigQueryへ接続する方法を記述します。 この記事では、以下の2タイプ認証について述べます。 1)サービスアカウントベース 2)OAuth 2.0 では、DataDirect Google BigQuery JDBCコネクタを使用する際に、これら2つの認証スキームを使ってどのように認証できるのか?を見てみます。 サービスアカウントベース認証 1、Google Cloud Consoleにログインします。画面左上にあるメニューより、[IAMと管理]-[サービスアカウント]を選択します(下図参照)。 2、サービスアカウントのページで、最上部の[サービスアカウント

    Google BigQuery認証とDataDirectによるJDBC接続 - Qiita
  • SQLで始める自然言語処理 - やむやむもやむなし

    こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

    SQLで始める自然言語処理 - やむやむもやむなし
  • GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから

    GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから いまから6年前の2014年、当時ようやくDockerコンテナが世の中に知られるようになってきた頃、Googleはすでに社内のすべてのソフトウェアをコンテナ化しており、毎週20億個ものコンテナをクラウド上で起動していると発表し、多くのエンジニアを驚かせました。 この大規模なコンテナの制御、すなわちオーケストレーションを行っていたのが同社内で「Borg」と呼ばれるソフトウェアです。 そしてKubernetesはこのBorgを基に、Googleがオープンソース化したコンテナオーケストレーションソフトウェアだとされています。 Borgの大規模分散コンテナ基盤でBigQueryが成立する このBorgによる大規模分散コンテナ基盤があるからこそ、BigQueryが安価に提供できるのだと、Google

    GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから
  • クラウド基盤とそこに乗るデータベースはどう進化したか? オラクルのデータベースとクラウドの最新動向から考察する[PR]

    クラウド基盤とそこに乗るデータベースはどう進化したか? オラクルのデータベースとクラウドの最新動向から考察する[PR] クラウドの登場と進化は、そのうえで稼働するデータベースにも影響を与えました。 クラウドでは、システムを適切に分散させ相互に連係させるアーキテクチャがスケーラビリティや高可用性を実現し、効率性を高めて従量課金によるコストを下げることにつながります。 一方でガバナンスや運用管理は、クラウドが提供するマネージドサービスや自動化ツール、自律型サービスなどを活用することが工数や人為的ミスを減らし、セキュアで統制のとれたシステムの実現につながります。 そうしたクラウド時代のデータベースとしてまず最初に登場したのがオラクルのAutonomous Databaseです。 Autonomous Databaseとしてまず最初に提供されたのがデータウェアハウスにのための自律型データベースサー

    クラウド基盤とそこに乗るデータベースはどう進化したか? オラクルのデータベースとクラウドの最新動向から考察する[PR]
    nminoru
    nminoru 2020/12/09
    OracleとかTeradataは高い価格帯で購入してくれるユーザーが多すぎてビシネスモデルの転換に手間取っている印象があるよな。
  • オラクル、MySQLにOLAP用の独自インメモリデータベースエンジンを搭載、「MySQL Analytics Engine」をOracle Cloud上で提供開始

    米オラクルは、Oracle Cloud上での新しいデータベースサービス「Oracle MySQL Database Service Analytics Engine」(以下、MySQL Analytics Engine)を発表しました。 オラクルは今年の9月に、最新のOracle Cloud基盤に最適化したMySQLのマネージドサービスとして「Oracle MySQL Database Service」を発表しています。 今回発表されたMySQL Analytics Engineは、このMySQL Database Serviceに大規模データ分析機能を追加するものです。 通常のデータベースエンジンであるInnoDBに対して最大で400倍高速にOLAPのクエリを実行できます。 具体的にはオラクルが独自に開発したカラム型の分散インメモリデータベースエンジンをMySQL Database Se

    オラクル、MySQLにOLAP用の独自インメモリデータベースエンジンを搭載、「MySQL Analytics Engine」をOracle Cloud上で提供開始
    nminoru
    nminoru 2020/12/03
    PostgreSQL 9.5の頃にこれと同じコンセプトのものをカスタムインデッスクスとして作ったけど、今のPostgreSQLならI/Fも増えてもっとうまく作れるかも。
  • 【速報】 AQUA (Advanced Query Accelerator) for Amazon Redshift がついにプレビュー開始になりました! #reinvent | DevelopersIO

    昨年のAWS re:Invent 2019で話題になったAmazon RedshiftのRA3インスタンスで利用できるAdvanced Query Accelerator (AQUA) for Amazon Redshiftのプレビューが遂に発表されました。 お待たせしました。昨年のre:Inventで発表され大反響を呼んだAmazon Redshift RA3の為の高速キャッシュレイヤーAQUAがPrivate Previewからすべてのお客様にお試しいただけるようになりました。 来年1月にGAとなる予定です。#reInvent AQUA for Amazon Redshift (preview) https://t.co/LJFApTDLKC — Junpei Ozono (@jostandard) December 1, 2020 Advanced Query Accelerator

    【速報】 AQUA (Advanced Query Accelerator) for Amazon Redshift がついにプレビュー開始になりました! #reinvent | DevelopersIO
  • Apache Iceberg - Apache Iceberg

    What is Iceberg? Iceberg is a high-performance format for huge analytic tables. Iceberg brings the reliability and simplicity of SQL tables to big data, while making it possible for engines like Spark, Trino, Flink, Presto, Hive and Impala to safely work with the same tables, at the same time. Expressive SQL Iceberg supports flexible SQL commands to merge new data, update existing rows, and perfor

  • NTTデータとSnowflakeが資本業務提携、データ活用プラットフォームを強化して組織のデータドリブン化を加速 | IoT NEWS

    2021-08-252020-09-16 NTTデータとSnowflakeが資業務提携、データ活用プラットフォームを強化して組織のデータドリブン化を加速 株式会社NTTデータとSnowflake Inc.は、2020年2月にソリューションパートナー契約を締結し、Snowflakeの顧客導入を進めてきた。 そしてこのほど、Snowflakeビジネスの国内外での拡大に向けて資業務提携に合意した。 両社は、今回の資業務提携を通じて以下の協業を推進することで、NTTデータグループの有するAI・データ活用領域を中心とするサービス・ソリューションと、Snowflakeが有するクラウド・データプラットフォームとの連携を通じて、AI・データ活用を起点にビジネスの成功を支援する「デジタルサクセスプログラム」を強化し、あらゆる組織のデータドリブン化を国内外で加速する。 NTTデータの提供するデータ活用プ

    NTTデータとSnowflakeが資本業務提携、データ活用プラットフォームを強化して組織のデータドリブン化を加速 | IoT NEWS
  • Amazon Aurora, Redshift, DynamoDBのワークロード別性能を比較する - Qiita

    はじめに AWSが提供する代表的なDBサービスには、クラウド前提で設計されたRDBAmazon Auroraデータ分析特化型RDBAmazon Redshift、ワイドカラム型DB(NoSQL)のAmazon DynamoDB1があります。AWSの各DBサービスの使い分けについては、一般的には概ね業務系システムのDBにはAuroraやDynamoDB、分析系システムのDBにはRedshiftを利用すれば良いとされていますが2、その根拠について定量的に確かめてみたいと思ったので、実際にOLTP/OLAPワークロード別の負荷をかけて各DBサービスの性能特性の違いについて確認してみました。 ※実際のシステム性能は様々な条件により変動します。あくまでも参考情報の一つとして捉えていただきますようお願いします。 前提知識 まず前提となる考え方として、OLTP/OLAPワークロードについて概説し

    Amazon Aurora, Redshift, DynamoDBのワークロード別性能を比較する - Qiita
    nminoru
    nminoru 2020/09/09
  • クラウドシフトでDWHが新ステージに!IT部門は自由度の低いアーキテクチャを我慢する必要はない

    デジタルトランスフォーメーション(DX)の潮流に沿う形で、企業が取り扱うデータ量が膨れ上がっている。大量データから有用な洞察を導き活用することで、新しい顧客を引きつけ、適切な意思決定を下し、事業を強化できる。 そうした中、データウェアハウス(DWH)の存在はこれまで以上に重要性を増している。ただし、クラウドシフトが進む中、DWHの在り方は大きく変化しようとしている。Data Warehouse as a service(サービスとしてのDWH)市場が、2019年の14億ドルから、2030年までには238億ドルになると予測されているのである。 ソニーなど4000社を超える企業が活用するSnowflake DWHの変化を仕掛ける企業の1つとして注目されているのが、Snowflakeである。Snowflakeの日法人でソリューションアーキテクトを務める橋峰明氏に、DWH市場に投入するに当たっ

    クラウドシフトでDWHが新ステージに!IT部門は自由度の低いアーキテクチャを我慢する必要はない
  • RedshiftとAurora、知らないうちにどんどん進化するAWSの2つのデータサービス

    こんにちは、アイティメディア@IT編集部の三木です。これから「ほぼ月刊AWS」という連載をお届けします。パブリッククラウド、特にAmazon Web Services(AWS)に関しては情報があふれています。でも、次々に新しい発表が行われ、全体的な把握が難しくなってしまうことがよくあります。また、いったん発表された製品が急速に進化し、綿密にフォローしていないと取り残されてしまうことがあります。そこでこの連載では、AWSに関するさまざまな発表の「文脈」をお伝えしようと考えています。 第1回は、アマゾンウェブサービスジャパン(以下、AWSジャパン)が2020年7月20日に行った、2020年4~7月におけるAWSサービスの最新情報説明から、主にエッジとデータ関連サービス、既存システムのクラウド移行に関する新たな動きについてまとめます。 「エッジ」に向けた発表が目立つAWS、でも結局「エッジ」とは

    RedshiftとAurora、知らないうちにどんどん進化するAWSの2つのデータサービス