並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 12 件 / 12件

新着順 人気順

DataLakeの検索結果1 - 12 件 / 12件

  • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

    はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

      データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
    • Moving from DynamoDB to tiered storage with MySQL+S3

      Originally we implemented a feature to persist an event-stream into DynamoDB to allow customers to retrieve them. This proved effective, serving as a strong use case for a key/value storage, yet the drawback was its high cost. Moving to provisioned billing-mode reduced cost by ~50%, but that was not going to be sustainable as we scaled to more customers. We also kept multiplying the cost each time

        Moving from DynamoDB to tiered storage with MySQL+S3
      • 広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog

        協業リテールメディアdivでデータエンジニアをしている千葉です。 本日は、広告プロダクトにおけるデータ基盤を効率よく活用することを目指したこの1年間を振り返って、データ基盤から広告プロダクトの価値を高めるための試行錯誤をご紹介します。 目次 データ基盤の構成紹介 データ基盤の活用および運用方法 手動作業での事故が起きないCI/CD構築 実験ができる環境の提供 コストの確認および監視 定期的な棚卸し データ基盤の民主化をした結果と課題 まとめ データ基盤の構成紹介 以前弊社のイベントに登壇した際の設計思想をもとに構築をしています。 このデータ基盤の利用目的としては、各広告媒体の配信結果を分析するための基盤となっています。 基盤の構成としてはStorageにRaw Dataを格納し、Datalake、DWH,Datamartの3層構造で基盤を構築しています。 主に使用しているツール/サービスと

          広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog
        • Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services

          AWS Database Blog Binary logging optimizations in Amazon Aurora MySQL version 3 The binary log (binlog) in MySQL is used to capture database modifications on a MySQL server in a logical format known as “events”. These database modifications can include DCL statements (such as CREATE USER or GRANT), DDL statements (CREATE TABLE, ALTER TABLE) and DML statements (INSERT, UPDATE, DELETE). When such a

            Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services
          • Dataplexを徹底解説! - G-gen Tech Blog

            G-gen の神谷です。本記事では、Google Cloud のスケーラブルでサーバレスなデータ管理ツールである Dataplex を徹底解説します。 Dataplex の概要 Dataplex とは メリット データメッシュとは 構成とオブジェクト Dataplex Discovery Dataplex Discovery とは Discovery Action アクセス制御 認証・認可 (IAM) IAM の基本的な理解 アセットと IAM プロジェクトをまたぐ権限管理 VPC Service Controls 属性ストア データの品質チェック Dataplex におけるデータ品質の検証 自動データ品質 自動データ品質とは データ品質タスク データプロファイリング ロギングとモニタリング ロギング モニタリング 料金 その他の機能 ビジネス用語集 データ探索ワークベンチ Dataple

              Dataplexを徹底解説! - G-gen Tech Blog
            • Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita

              はじめに 本記事は、Snowflake Data Cloud Summit 2024 の Platform Keynote で発表されたデータアプリケーション機能に関連するアップデート情報を紹介します!セッションとしては、後半の後半のあたりに該当する部分です。本キーノートの配信を視聴することもできるので、気になる方はぜひ御覧ください! 本記事では、下記の項目で解説します。 Snowpark for Python Snowflake Notebooks Snowflake Cortex Snowpark Container Services Hybrid Table Dev/MLOps また先日、同様のカテゴリで各機能の概要を解説した記事も投稿しています。ぜひあわせて御覧ください! 概要 Platform Keynote では、様々なアップデートの発表がありました!特に、アプリ・LLM 系の

                Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita
              • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

                こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

                  AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
                • 【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services

                  Amazon Web Services ブログ 【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) 本ブログでは2023年9月21日(木)に開催された、「現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編)」のご講演サマリをお届けします。 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 2. 電気設備に対する画像分類モデルの開発と生成AIを活用した異常画像生成の取り組み 3. 「建設デジタルプラットフォーム」によるデジタルデータ活用 4. ファストデジタルツインでちゃぶ台返し~保全の現場から市場を創る、ものづくりを変える~ 5. 現場業務変革を実現するAWSテクノロジー 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 資料ダウンロード 九州旅客鉄道株式会社様 (JR九州様) からは、A

                    【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services
                  • Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う

                    風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋 兼業エンジニアの “宮地克弥”(@int_tt) です。 データ分析基盤を構築するのに必要な不可欠なものとしてデータレイクが挙げられます。AWS を利用して構築する際には Amazon S3 の利用が推奨されています。 【公式参照】AWS 上でのデータレイク - Amazon S3 データレイクでデータサイロを排し、大規模で簡単な分析を可能にする Amazon S3 はデータレイク以外にも静的コンテンツ置き場として幅広い用途で利用されています。 安価かつ簡単に利用することが出来る一方、設定を 1 つ間違えると情報流出に繋がる

                      Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う
                    • IAMポリシーのワークショップをやってみた | DevelopersIO

                      AWS Workshopの「How and when to use different IAM policy types」をやってみました はじめに データアナリティクス事業本部のおざわです。 7月25日は、自宅で井上尚弥選手の試合を観戦して盛り上がっていました。勝利者インタビューで「まだ改善の余地がある」と答えていたのが印象的でした。次の試合も楽しみですね。 今回は、AWSのWorkshop Studioの中から「How and when to use different IAM policy types」というワークショップをやってみました。普段、IAMポリシーを自分で設定する機会があまりなかったので、自分で手を動かしながらいろいろと試したくなったというのが理由です。 いまのところ英語版しかないようです。環境構築はワークショップ用のCloudFormationテンプレートが用意されてい

                        IAMポリシーのワークショップをやってみた | DevelopersIO
                      • S3イベントでECSを起動する【前編】 - Qiita

                        はじめに ユーザがS3にファイルをアップロードした際にそのS3イベントをトリガーとして何らかの変換処理を実施し、DWH/DataLakeに格納する、といった簡易システムのニーズは多い。 今回はLambdaでは処理出来ないような重い処理、かつ不定期な利用頻度である場合にECS Fargateを用いてコスパ良く対処するアーキテクチャの開発を実施するので、備忘として記録する。 今回は前編として、S3 Object CreatedをトリガーとしてECSでコンテナを起動する所までを実装する。後編では、コンテナ内のpythonを用いてRDS for MySQLへのインサートを実装する。 概要 このように、S3のObject CreatedイベントからEventBridgeを噛んでStepFunctionsを起動する。ECSはFargateで済む様であればその方がよく、EC2を使う必要があれば状況に応じ

                          S3イベントでECSを起動する【前編】 - Qiita
                        • 2023/08/23 トランザクション対応の列志向データフォーマット比較(Iceberg,Hudi,DeltaLake) - /home/by-natures/dev*

                          先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについて" https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Datalake-Format-On-AWS_0516_v1.pdf AWS のソリューションアーキテクト、Chie Hayashida さんによる各種データフォーマット比較です。 CSV, JSON, AVRO, Parquet, ORC などのファイルフォーマットや様々なユースケースを紹介しながら、新たなデータレイク

                            2023/08/23 トランザクション対応の列志向データフォーマット比較(Iceberg,Hudi,DeltaLake) - /home/by-natures/dev*
                          1