サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ノーベル賞
www.databricks.com
Unified governance for all data, analytics and AI assets
メダリオンアーキテクチャとは メダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。
ファクトテーブルとディメンションテーブル スタースキーマは、ビジネスデータをディメンション(時間や商品など)とファクト(金額や数量のトランザクションなど)に非正規化するために使用されます。 スタースキーマの中央には 1 つのファクトテーブルがあり、ビジネスのファクト(金額や数量のトランザクションなど)が格納されています。ファクトテーブルは、時間や製品などのディメンションに沿って、他の複数のディメンションテーブルに接続されています。スタースキーマでは、2 つ以上のファクトテーブルとディメンションテーブルを結合することで、ユーザーが適切と考える方法でデータをスライスすることやダイスにすることを可能にします。 非正規化データ スタースキーマは、一部のディメンションテーブルに冗長なカラムを追加することで、データのクエリや作業を高速化・簡略化しデータを非正規化します。その目的は、データモデルの冗長性
データボルトとは Data Vault(データボルト)とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。 ハブは、ビジネスの中核となるコンセプトを、リンクは、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。 データボルトは、レイクハウスのパラダイムを採用する組織に適したデータモデルです。 データボルトのモデリング:ハブ、リンク、サテライト ハブ:それぞれのハブは、顧客 ID、製品番号、車両識別番号(VIN)など、ビジネスの中核となるコンセプトを表します。ユーザーはビジネスキーを使用して、ハブに関する情報を取得します。ビジネスキーには、ビジネスコンセプト ID やシー
MLOps とは MLOps は、エムエルオプスと読み、Machine Learning Operations の略語で、機械学習(Machine Learning)と運用(Operations)を組み合わせた言葉です。言葉のとおり、機械学習の開発チーム、運用チーム、データサインティストなどが連携し、機械学習モデルを実ビジネスに効果的に展開・運用するための手法を指します。開発チームと運用チームが連携し、DevOps の原則を拡張して、機械学習のモデルの運用に適用したのが MLOps です。 MLOps の活用法 MLOps は、機械学習や AI ソリューションの構築と品質向上に有効なアプローチです。MLOps のアプローチを取り入れることで、機械学習モデルの適切な監視、検証、ガバナンスを備えた CI/CD(継続的インテグレーションと継続的デリバリー)が可能になり、データサイエンティストと機
Parquet とは Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。Apache Parquet は、バッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており、Hadoop で利用可能な他の列指向ストレージファイル形式である RCFile や ORC に似ています。 グローバルデータおよび AI コミュニティの中心、米国サンフランシスコで開催されるData + AI Summit 2025にて、基調講演およびAIエージェント、生成AI、データインテリジェンスなどデータエンジニアリング分野を網羅する700以上のセッションの中から、主要スピーカーによる発表を 6 月 12日から13日に
ラムダアーキテクチャとは ラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。
ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNA のシーケンス全体、または DNA を構成する原子の組成、および DNA 原子間の化学結合を決定することです。ゲノミクスの分野は、全体構造としてのゲノムに重点を置いており、生物の完全な遺伝物質の研究として定義することができます。DNA は 1869 年に初めて単離されましたが、ゲノミクスは、科学者が単純な生物の DNA シーケンスを決定した 1970 年代に始まったばかりです。ゲノミクスの分野で最{...} デジタルツインとはIBM によると、デジタルツインの従来の定義は、「物理オブジェクトを正確に反映するように設計された仮想モデル」です。デジタルツインは、離散的または連続的な製造プロセスにおいて、さまざまな IoT センサー(OT:運用技術データ)やエンタープライズデータ(IT:情報技術)
Boost GenAI ROI with AI agents Real-world examples of AI agents in action
Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス(DWH: Data Warehouse)、データレイク(Data Lake)それぞれと比較して優れている点について解説します。 データウェアハウス(DWH)とは データウェアハウス(DWH)とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI(ビジネスインテリジェンス)アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処
次のページ
このページを最初にブックマークしてみませんか?
『Real-time Recommendations using Spark Comcast Labs』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く