並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

DataLakeの検索結果1 - 7 件 / 7件

  • Amazon DataZone でデータカタログを実現する - Taste of Tech Topics

    はじめに こんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。 さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。 データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。 はじめに 概要 データレイクとは データカタログとは なぜAmazon DataZoneが必要か(AWS Guleとの違い) Amazon DataZoneとは サービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる 構成概要 データ準備 ドメインとデータポータルの作成 プロジェクトの作成 環境の作成 データカタログの作成 データアセッ

      Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
    • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

      プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

        社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
      • BigQuery のデータ品質やデータ活用を高める Dataplex 等の活用

        Google Cloud Next Tokyo '23で発表した資料です。

          BigQuery のデータ品質やデータ活用を高める Dataplex 等の活用
        • OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO

          OpenMetadataではデータリネージュ(データの流れ)を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。 その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。 発生してしまったらかなり怖いです。 よってスーパーユーザの権限はそもそも必要なく、 また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。 また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること

            OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO
          • Understanding Parquet, Iceberg and Data Lakehouses at Broad

            In the past few years, I've heard a lot about Avro, Parquet, ORC, Arrow and Feather, but I also keep hearing about Iceberg and Delta Lake. As a "database person", I’ve been struggling to understand all of these different things, and how they relate to Data Lakes and Data Lakehouses (and what exactly are these?). So, I’ve decided to study them, and consolidate my knowledge in writing. To do this, I

            • CDC + Apache Iceberg で Amazon Athena にデータを取り込む

              このポストについて#このポストは Distributed computing Advent Calendar 2023 の3日目の記事になります。 1日目、2日目に続いて Apache Iceberg について書きますが、このポストでは Iceberg の実用例を書きます。 AWS DMS による CDC の結果を Apache Iceberg 形式にして Amazon Athena でクエリできるようにするという内容になります。 やっていることとしては Perform upserts in a data lake using Amazon Athena and Apache Iceberg | AWS Big Data Blog で紹介されている内容と近いですが、実務としての背景や工夫したところなどを書いていきます。 背景#私の所属する事業会社では日々プロダクトから様々なデータが発生して

                CDC + Apache Iceberg で Amazon Athena にデータを取り込む
              • Snowflake新機能: Iceberg Table と Polaris Catalog の仕組み

                はじめに こんにちは!ナウキャストのデータエンジニアのけびんです。 Data Cloud Summit 2024 にて Iceberg Table が GA となること、また Polaris Catalog が発表されました。大々的に発表されたので気になっているものの、詳細を知らない方も多いのではないでしょうか? 自分もその一人だったので、本記事では改めて Apache Iceberg とは何かというところからまとめていきます。もし誤りなどあれば教えていただけますと幸いです。 Table Format とは Apache Iceberg とは大規模な分析データ向けの Open Table Format で、 Snowflake の Iceberg Table はこれを使用したテーブルということになります。Iceberg を深掘る前にそもそも Table Format とは何でしょうか? T

                  Snowflake新機能: Iceberg Table と Polaris Catalog の仕組み
                1