タグ

ブックマーク / note.com/zono_data (3)

  • ストリーム処理とバッチ処理の比較と運用における注意点|zono

    1. ストリーム処理とバッチ処理の基概念1.1 バッチ処理とはバッチ処理は、一定期間に蓄積されたデータを一括で処理する方式です。典型的には、1日、1時間、またはそれ以上のスパンでデータを集め、その後一度に処理を行います。 バッチ処理のメリットは、データを一気に処理するためスケーラビリティが高く、リソースの使用効率も比較的高いことです。 また、システムの停止やエラーが起きた際にリカバリーが比較的容易です。しかし、リアルタイム性がないため、即時反応が求められるケースには不向きです。 バッチ処理のメリット: 大量のデータを一括で処理できる。 処理の実行タイミングを自由に調整できる。 システム障害やエラーのリカバリーが容易。 バッチ処理のデメリット: リアルタイム処理ができない。 大量のデータが一度に処理されるため、ピーク時の負荷が高くなる可能性がある。 1.2 ストリーム処理とはストリーム処理

    ストリーム処理とバッチ処理の比較と運用における注意点|zono
    Ehren
    Ehren 2024/09/08
  • 金融データのスタースキーマ実装方法|zono

    はじめに記事では、金融データの管理・分析に有効なスタースキーマの概要と実装方法を紹介します。 データレイクに格納されたテーブルからスタースキーマを作成する具体的な方法について説明します。ただし、理解しやすさを優先したので非常にシンプルかつ簡易的な設計になっています。 スタースキーマスタースキーマは、データウェアハウスやデータマートでよく使用されるデータモデルの一種です。その特徴はシンプルで直感的な構造でありながら、高いパフォーマンスと柔軟性を提供します。 スタースキーマは、中心に「ファクトテーブル」と呼ばれるテーブルを配置し、その周囲に「ディメンションテーブル」と呼ばれる複数の関連テーブルを配置する形式を取ります。 分析前のテーブル以下のような主要テーブルが存在すると仮定します。 顧客(Customer) 口座(Account) 支店(Branch) 口座取引(AccountTransa

    金融データのスタースキーマ実装方法|zono
    Ehren
    Ehren 2024/06/19
  • 多段ビューのテーブル化によるクエリの効率化とコスト削減|zono

    はじめにデータ分析基盤の設計は非常に重要な役割を果たしており、データエンジニアは、初期設計時にしばしば多段ビュー(nested views)を利用します。 しかし、これらの多段ビューは、パフォーマンスやコストの観点から問題を引き起こすことがあります。 記事では、多段ビューの課題を解決するためにテーブル化を検討する方法について詳細に説明します。 多段ビューの利点と課題多段ビューの利点柔軟性と再利用性: 多段ビューは、複数のビジネスロジックを再利用可能な形で定義することができます。これにより、変更が容易になり、メンテナンスの手間が減少します。 動的クエリの実行: ビューは動的にクエリが実行されるため、最新のデータをリアルタイムで取得することが可能です。 多段ビューの課題パフォーマンスの低下: 多段ビューのネストが深くなると、クエリの実行時間が大幅に増加します。これにより、応答時間が遅延してユ

    多段ビューのテーブル化によるクエリの効率化とコスト削減|zono
    Ehren
    Ehren 2024/06/10
  • 1