サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
www.databricks.com
Unified governance for all data, analytics and AI assets
メダリオンアーキテクチャとはメダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。 レイクハウスアーキテクチャのメリットシンプルなデータモデルわかりやすく、導入が容易増分 ETL が可能未加工データからのテーブル再作成がいつでも可能ACID トランザクション、タイムトラベルレイクハウスとはレイクハウスは、データレイクとデータウェアハウスの優れた要素を取り入れた新しいデータプラットフォームアーキテクチャです。モダンレイクハウスは、拡張性と性能に優れたデータプラットフォームです。未加工データと
スタースキーマとはスタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート、その他のツールに適用できます。スタースキーマの設計は、大規模なデータセットへのクエリを実行するために最適化されています。 1990 年代にラルフ・キンボールによって発表されたスタースキーマは、反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理、データの更新を効率的に行い、データウェアハウスでのデータの集計やフィルタリングを高速に行うことができます。 ファクトテーブルとディメンションテーブルスタースキーマは、ビジネスデータをディメンション(時間や商品など)とファクト(金額や数量のトランザクションなど)に非正規化するために使用されます。 スタースキーマの中央には 1 つのファクトテーブルがあり、ビジネスのフ
データボルトとはData Vault(データボルト)とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。 ハブは、ビジネスの中核となるコンセプトを、リンクは、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。 データボルトは、レイクハウスのパラダイムを採用する組織に適したデータモデルです。 データボルトのモデリング:ハブ、リンク、サテライトハブ:それぞれのハブは、顧客 ID、製品番号、車両識別番号(VIN)など、ビジネスの中核となるコンセプトを表します。ユーザーはビジネスキーを使用して、ハブに関する情報を取得します。ビジネスキーには、ビジネスコンセプト ID やシーケン
MLOps は、エムエルオプスと読み、Machine Learning Operations の略語で、機械学習(Machine Learning)と運用(Operations)を組み合わせた言葉です。言葉のとおり、機械学習の開発チーム、運用チーム、データサインティストなどが連携し、機械学習モデルを迅速かつ効率的に実際のビジネスに最適化させるための手法を指します。開発チームと運用チームが連携し、円滑な開発を進める DevOps の考え方を拡張し、機械学習の分野に特化させたのが MLOps です。 MLOps の活用法MLOps は、機械学習や AI ソリューションの構築と品質向上に有効なアプローチです。MLOps のアプローチを取り入れることで、機械学習モデルの適切な監視、検証、ガバナンスを備えた CI/CD(継続的インテグレーションと継続的デリバリー)が可能になり、データサイエンティスト
Parquet と Delta Lakeオープンソースの Delta Lake プロジェクトは、Parquet 形式に基づいて構築され、さまざまな機能の追加により拡張されています。追加機能には、クラウドオブジェクトストレージの ACID トランザクション、タイムトラベル、スキーマの拡張、シンプルな DML コマンド(CREATE、UPDATE、INSERT、DELETE、MERGE)などがあります。Delta Lake は、順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実装しています。これにより、クラウドのオブジェクトストレージ上におけるデータウェアハウス機能が可能になります。詳細は、こちらの動画 Delta Lake 詳細編:トランザクションログをご覧ください。
ラムダアーキテクチャとはラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。 バッチレイヤー新しいデータは、データシステムへのフィードとして継続的に提供されます。データはバッチレイヤーとスピードレイヤーに同時に供給されます。全てのデータを一度に調べ、最終的にストリームレイヤー内のデータを修正します。ここでは、多くの ETL と従来型のデータウェアハウスを見つけることができます。このレイヤーは、通常 1 日に 1 回または 2 回、事前定義されたスケジュールを使用して構築されます。バッチレイヤーには、次の 2 つの重要な機能があります。 マスターデータセットの管理バッ
Databricks データインテリジェンスプラットフォームDatabricks は、AI とデータの融合と活用、成果の創出を支援します。
Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス(DWH: Data Warehouse)、データレイク(Data Lake)それぞれと比較して優れている点について解説します。 データウェアハウス(DWH)とは データウェアハウス(DWH)とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI(ビジネスインテリジェンス)アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処
次のページ
このページを最初にブックマークしてみませんか?
『Real-time Recommendations using Spark Comcast Labs』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く