本文「DataLake」を検索 - はてなブックマーク

1 - 12 件 / 12件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果1 - 12 件 / 12件

データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 22 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
Moving from DynamoDB to tiered storage with MySQL+S3
- 12 users
- zendesk.engineering
- テクノロジー
- 2024/02/06
Originally we implemented a feature to persist an event-stream into DynamoDB to allow customers to retrieve them. This proved effective, serving as a strong use case for a key/value storage, yet the drawback was its high cost. Moving to provisioned billing-mode reduced cost by ~50%, but that was not going to be sustainable as we scaled to more customers. We also kept multiplying the cost each time
- DynamoDB
- aws
- performance
広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog
- 8 users
- developers.cyberagent.co.jp
- テクノロジー
- 2024/05/09
協業リテールメディアdivでデータエンジニアをしている千葉です。本日は、広告プロダクトにおけるデータ基盤を効率よく活用することを目指したこの1年間を振り返って、データ基盤から広告プロダクトの価値を高めるための試行錯誤をご紹介します。目次データ基盤の構成紹介データ基盤の活用および運用方法手動作業での事故が起きないCI/CD構築実験ができる環境の提供コストの確認および監視定期的な棚卸しデータ基盤の民主化をした結果と課題まとめデータ基盤の構成紹介以前弊社のイベントに登壇した際の設計思想をもとに構築をしています。このデータ基盤の利用目的としては、各広告媒体の配信結果を分析するための基盤となっています。基盤の構成としてはStorageにRaw Dataを格納し、Datalake、DWH，Datamartの3層構造で基盤を構築しています。主に使用しているツール/サービスと
- あとで読む
Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services
- 7 users
- aws.amazon.com
- テクノロジー
- 2024/05/18
AWS Database Blog Binary logging optimizations in Amazon Aurora MySQL version 3 The binary log (binlog) in MySQL is used to capture database modifications on a MySQL server in a logical format known as “events”. These database modifications can include DCL statements (such as CREATE USER or GRANT), DDL statements (CREATE TABLE, ALTER TABLE) and DML statements (INSERT, UPDATE, DELETE). When such a
- MySQL
- あとで読む
Dataplexを徹底解説！ - G-gen Tech Blog
- 4 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/11/08
G-gen の神谷です。本記事では、Google Cloud のスケーラブルでサーバレスなデータ管理ツールである Dataplex を徹底解説します。 Dataplex の概要 Dataplex とはメリットデータメッシュとは構成とオブジェクト Dataplex Discovery Dataplex Discovery とは Discovery Action アクセス制御認証・認可 (IAM) IAM の基本的な理解アセットと IAM プロジェクトをまたぐ権限管理 VPC Service Controls 属性ストアデータの品質チェック Dataplex におけるデータ品質の検証自動データ品質自動データ品質とはデータ品質タスクデータプロファイリングロギングとモニタリングロギングモニタリング料金その他の機能ビジネス用語集データ探索ワークベンチ Dataple
Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita
- 4 users
- qiita.com/toru_hiyama
- テクノロジー
- 2024/06/05
はじめに本記事は、Snowflake Data Cloud Summit 2024 の Platform Keynote で発表されたデータアプリケーション機能に関連するアップデート情報を紹介します！セッションとしては、後半の後半のあたりに該当する部分です。本キーノートの配信を視聴することもできるので、気になる方はぜひ御覧ください！本記事では、下記の項目で解説します。 Snowpark for Python Snowflake Notebooks Snowflake Cortex Snowpark Container Services Hybrid Table Dev/MLOps また先日、同様のカテゴリで各機能の概要を解説した記事も投稿しています。ぜひあわせて御覧ください！概要 Platform Keynote では、様々なアップデートの発表がありました！特に、アプリ・LLM 系の
- python
AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
- 4 users
- zenn.dev/simpleform_blog
- テクノロジー
- 2024/04/16
こんにちは。シンプルフォーム株式会社にてインフラエンジニアをしています、山岸です。社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。概要当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま
- aws
【開催報告＆資料公開】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2023/11/06
Amazon Web Services ブログ【開催報告＆資料公開】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) 本ブログでは2023年9月21日（木）に開催された、「現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編)」のご講演サマリをお届けします。 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 2. 電気設備に対する画像分類モデルの開発と生成AIを活用した異常画像生成の取り組み 3. 「建設デジタルプラットフォーム」によるデジタルデータ活用 4. ファストデジタルツインでちゃぶ台返し～保全の現場から市場を創る、ものづくりを変える～ 5. 現場業務変革を実現するAWSテクノロジー 1. JR九州の「AWS×データ分析」によるDX推進の取り組み資料ダウンロード九州旅客鉄道株式会社様 (JR九州様)　からは、A
- あとで読む
Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う
- 4 users
- techblog.kazaneya.com
- テクノロジー
- 2023/12/06
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。風音屋兼業エンジニアの “宮地克弥”（@int_tt）です。データ分析基盤を構築するのに必要な不可欠なものとしてデータレイクが挙げられます。AWS を利用して構築する際には Amazon S3 の利用が推奨されています。【公式参照】AWS 上でのデータレイク - Amazon S3 データレイクでデータサイロを排し、大規模で簡単な分析を可能にする Amazon S3 はデータレイク以外にも静的コンテンツ置き場として幅広い用途で利用されています。安価かつ簡単に利用することが出来る一方、設定を 1 つ間違えると情報流出に繋がる
- aws
- security
IAMポリシーのワークショップをやってみた | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2023/07/28
AWS Workshopの「How and when to use different IAM policy types」をやってみましたはじめにデータアナリティクス事業本部のおざわです。 7月25日は、自宅で井上尚弥選手の試合を観戦して盛り上がっていました。勝利者インタビューで「まだ改善の余地がある」と答えていたのが印象的でした。次の試合も楽しみですね。今回は、AWSのWorkshop Studioの中から「How and when to use different IAM policy types」というワークショップをやってみました。普段、IAMポリシーを自分で設定する機会があまりなかったので、自分で手を動かしながらいろいろと試したくなったというのが理由です。いまのところ英語版しかないようです。環境構築はワークショップ用のCloudFormationテンプレートが用意されてい
S3イベントでECSを起動する【前編】 - Qiita
- 3 users
- qiita.com/bokuikkun
- テクノロジー
- 2023/10/13
はじめにユーザがS3にファイルをアップロードした際にそのS3イベントをトリガーとして何らかの変換処理を実施し、DWH/DataLakeに格納する、といった簡易システムのニーズは多い。今回はLambdaでは処理出来ないような重い処理、かつ不定期な利用頻度である場合にECS Fargateを用いてコスパ良く対処するアーキテクチャの開発を実施するので、備忘として記録する。今回は前編として、S3 Object CreatedをトリガーとしてECSでコンテナを起動する所までを実装する。後編では、コンテナ内のpythonを用いてRDS for MySQLへのインサートを実装する。概要このように、S3のObject CreatedイベントからEventBridgeを噛んでStepFunctionsを起動する。ECSはFargateで済む様であればその方がよく、EC2を使う必要があれば状況に応じ
- techfeed
2023/08/23 トランザクション対応の列志向データフォーマット比較(Iceberg,Hudi,DeltaLake) - /home/by-natures/dev*
- 3 users
- bynatures.hatenadiary.jp
- テクノロジー
- 2023/08/23
先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します：先日の記事： bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについて" https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Datalake-Format-On-AWS_0516_v1.pdf AWS のソリューションアーキテクト、Chie Hayashida さんによる各種データフォーマット比較です。 CSV, JSON, AVRO, Parquet, ORC などのファイルフォーマットや様々なユースケースを紹介しながら、新たなデータレイク