はじめに 環境情報 前提: Delta Lakeとは何か Delta Log とは何か _delta_logディレクトリの構成 1. JSONトランザクションログ: 2. Checkpoint ファイル: 3. Last Checkpoint ファイル: 4. CRC (Cyclic Redundancy Check) ファイル: JSONトランザクションログ JSONトランザクションログのスキーマ アトミックコミットを構成するアクション metaData: メタデータの更新 add: ファイルの追加 remove: ファイルの削除 txn: トランザクションの設定 protocol: プロトコルの変更 commitInfo: コミット情報 Checkpoint ファイル Last Checkpoint ファイル CRC (Cyclic Redundancy Check) ファイル CRC
はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ
Apache Hudi vs Delta Lake vs Apache Iceberg - Data Lakehouse Feature Comparison IntroductionWith the growing popularity of the data lakehouse there has been a rising interest in the analysis and comparison of the three open source projects which are at the core of this data architecture: Apache Hudi, Delta Lake, and Apache Iceberg. Most comparison articles currently published seem to evaluate thes
この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。 はじめに ビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く