並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 12 件 / 12件

新着順 人気順

dataLakeの検索結果1 - 12 件 / 12件

  • 3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools

    公開日 2024/07/29更新日 2024/07/313フェーズに分けて振り返る atama plus データアーキテクチャ変遷 こんにちは、atama plus株式会社でEngineering Managerや、SRE、データ基盤などplatform系チームのオーナーをしております、前田( @kzk_maeda)と申します。 atama plusでは「教育に、人に、社会に、次の可能性を。」をミッションに、全国の生徒さんに新しい学習体験を届けるため奮闘しています。 その手段として、AIを用いてパーソナライズされた学習体験を提供しております。その実現のためには生徒さんの学習データを如何に活用していくかは非常に重要な要素です。他にも、データに基づいた意思決定、コンテンツ改善のための指標トラッキング、顧客コミュニケーションなど、様々なところでデータを活用する動きがあり、年々その需要と活用幅は広

      3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools
    • Amazon DataZone でデータカタログを実現する - Taste of Tech Topics

      はじめに こんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。 さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。 データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。 はじめに 概要 データレイクとは データカタログとは なぜAmazon DataZoneが必要か(AWS Guleとの違い) Amazon DataZoneとは サービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる 構成概要 データ準備 ドメインとデータポータルの作成 プロジェクトの作成 環境の作成 データカタログの作成 データアセッ

        Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
      • DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog

        本記事では6月に開催されたDATA+AI Summit 2024でGeneral Availabilityが発表されたDatabricksのDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal Formatの機能を有効にしたテーブルを作成し、Amazon AthenaからApache Iceberg形式でクエリを発行するサンプルを用いて、機能の使い方と本機能のメリットについて解説します。 目次 目次 はじめに データレイクとOpen Table For

          DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog
        • Moving from DynamoDB to tiered storage with MySQL+S3

          Originally we implemented a feature to persist an event-stream into DynamoDB to allow customers to retrieve them. This proved effective, serving as a strong use case for a key/value storage, yet the drawback was its high cost. Moving to provisioned billing-mode reduced cost by ~50%, but that was not going to be sustainable as we scaled to more customers. We also kept multiplying the cost each time

            Moving from DynamoDB to tiered storage with MySQL+S3
          • 広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog

            協業リテールメディアdivでデータエンジニアをしている千葉です。 本日は、広告プロダクトにおけるデータ基盤を効率よく活用することを目指したこの1年間を振り返って、データ基盤から広告プロダクトの価値を高めるための試行錯誤をご紹介します。 目次 データ基盤の構成紹介 データ基盤の活用および運用方法 手動作業での事故が起きないCI/CD構築 実験ができる環境の提供 コストの確認および監視 定期的な棚卸し データ基盤の民主化をした結果と課題 まとめ データ基盤の構成紹介 以前弊社のイベントに登壇した際の設計思想をもとに構築をしています。 このデータ基盤の利用目的としては、各広告媒体の配信結果を分析するための基盤となっています。 基盤の構成としてはStorageにRaw Dataを格納し、Datalake、DWH,Datamartの3層構造で基盤を構築しています。 主に使用しているツール/サービスと

              広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog
            • Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services

              AWS Database Blog Binary logging optimizations in Amazon Aurora MySQL version 3 The binary log (binlog) in MySQL is used to capture database modifications on a MySQL server in a logical format known as “events”. These database modifications can include DCL statements (such as CREATE USER or GRANT), DDL statements (CREATE TABLE, ALTER TABLE) and DML statements (INSERT, UPDATE, DELETE). When such a

                Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services
              • Dataplexを徹底解説! - G-gen Tech Blog

                G-gen の神谷です。本記事では、Google Cloud のスケーラブルでサーバレスなデータ管理ツールである Dataplex を徹底解説します。 Dataplex の概要 Dataplex とは メリット データメッシュとは 構成とオブジェクト Dataplex Discovery Dataplex Discovery とは Discovery Action アクセス制御 認証・認可 (IAM) IAM の基本的な理解 アセットと IAM プロジェクトをまたぐ権限管理 VPC Service Controls 属性ストア データの品質チェック Dataplex におけるデータ品質の検証 自動データ品質 自動データ品質とは データ品質タスク データプロファイリング ロギングとモニタリング ロギング モニタリング 料金 その他の機能 ビジネス用語集 データ探索ワークベンチ Dataple

                  Dataplexを徹底解説! - G-gen Tech Blog
                • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

                  こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

                    AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
                  • 【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services

                    Amazon Web Services ブログ 【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) 本ブログでは2023年9月21日(木)に開催された、「現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編)」のご講演サマリをお届けします。 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 2. 電気設備に対する画像分類モデルの開発と生成AIを活用した異常画像生成の取り組み 3. 「建設デジタルプラットフォーム」によるデジタルデータ活用 4. ファストデジタルツインでちゃぶ台返し~保全の現場から市場を創る、ものづくりを変える~ 5. 現場業務変革を実現するAWSテクノロジー 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 資料ダウンロード 九州旅客鉄道株式会社様 (JR九州様) からは、A

                      【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services
                    • SIEMからデータ基盤へ - Amazon Security Lakeを試してる話 - LayerX エンジニアブログ

                      LayerX Fintech事業部*1ので、ガバナンス・コンプラエンジニアリングをしている @ken5scal です。 はじめに 本ブログは、以前執筆した「SIEMの限界」から「データ基盤への道」への具体的な取り組み、いわば試行錯誤の途中経過をお伝えするものです。今後も継続的に試行錯誤や改善策をお届けしていく予定ですので、この過程に興味をお持ちの方は、ぜひフォローをお願いいたします。 tech.layerx.co.jp 「SIEMの限界」で述べた通り、当社は「メンテナンスや運用、対応策にかかるコストと工数に比して、自社の持てるコントロールや自由度が限定的」という課題を既存のSIEMに感じています。 まず、SIEMの強みとされる相関分析の効果を最大化するには、監査ログ以外にも以下のデータを相関できる必要があります。 ユーザーやデバイス等の資産情報 権限 NWトラフィック 特にNWトラフィック

                        SIEMからデータ基盤へ - Amazon Security Lakeを試してる話 - LayerX エンジニアブログ
                      • Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う

                        風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋 兼業エンジニアの “宮地克弥”(@int_tt) です。 データ分析基盤を構築するのに必要な不可欠なものとしてデータレイクが挙げられます。AWS を利用して構築する際には Amazon S3 の利用が推奨されています。 【公式参照】AWS 上でのデータレイク - Amazon S3 データレイクでデータサイロを排し、大規模で簡単な分析を可能にする Amazon S3 はデータレイク以外にも静的コンテンツ置き場として幅広い用途で利用されています。 安価かつ簡単に利用することが出来る一方、設定を 1 つ間違えると情報流出に繋がる

                          Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う
                        • Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita

                          はじめに 本記事は、Snowflake Data Cloud Summit 2024 の Platform Keynote で発表されたデータアプリケーション機能に関連するアップデート情報を紹介します!セッションとしては、後半の後半のあたりに該当する部分です。本キーノートの配信を視聴することもできるので、気になる方はぜひ御覧ください! 本記事では、下記の項目で解説します。 Snowpark for Python Snowflake Notebooks Snowflake Cortex Snowpark Container Services Hybrid Table Dev/MLOps また先日、同様のカテゴリで各機能の概要を解説した記事も投稿しています。ぜひあわせて御覧ください! 概要 Platform Keynote では、様々なアップデートの発表がありました!特に、アプリ・LLM 系の

                            Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita
                          1