並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 63 件 / 63件

新着順 人気順

DataLakeの検索結果41 - 63 件 / 63件

  • カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ

    はじめに こんにちは。High Linkのデータエンジニアの芦川 (@hirorororo772) です。 私たちが運営する香水サブスクサービス「カラリア」では、「香水診断」、「レコメンド機能」、「フレグランスプロフィール」など、データを活用したさまざまな機能を提供しています。 こういった機能を提供するためには、ロジックの開発だけでなく、安定的に提供するための基盤や開発を加速させるためのCI/CD基盤やデータパイプラインの構築(MLOps)が重要になってきます。 今回は、カラリアにおけるデータを活用した機能の裏側についてご紹介したいと思います。 スタートアップである私たちは、小さくはじめてスピードは保ちつつ、中長期的に開発スピードや運用コストにレバレッジを効かせられるよう意識してきました。 設計面で考慮したポイントや、実際に運用してみた所感なども併せてご紹介いたしますので、これからミニマム

      カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ
    • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

      id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

        AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
      • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

        こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

          AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
        • dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~

          「Looker User Meetup Online #8」にて登壇した内容となっております

            dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~
          • メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog

            こんにちは、Mercari Analytics Blog 編集部です。 連載「メルカリのデータアナリストが向き合う11のテーマ」、今回はAnalytics Infraチーム、@nambさんによる記事です。@nambさんはデータアーキテクトとして入社し、メルカリのデータ分析基盤を整備しています。今回は「データ利用監視」というテーマで、仕事の内容を語っていただきました! データ基盤の改善は「利用状況の把握」から始まる――取り組みのミッションは何ですか? データの利用環境の改善を通じて、データに基づいた意思決定をサポートしています。 前提として、データセットやテーブルのメンテナンスにおいては、影響範囲の評価や優先順位の決定が重要だと考えています。メルカリでは、中間テーブル作成などの積極的なデータ環境改善に加え、プロダクトの改善・データフローのリニューアルに伴うデータのリプレースも常に並行して実施

              メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog
            • 「[増補改訂]ビッグデータを支える技術」を書きました - Qiita

              2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ [増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景 本書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。 本書の概要については次のページにまとめられています。 本書について ―改訂にあたって もともとは旧第6章のサンプルコードを書き直すくらいのつ

                「[増補改訂]ビッグデータを支える技術」を書きました - Qiita
              • GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                  GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data
                • 【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO

                  はじめに 皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です!! 本エントリではライブセッション「AAB-03:Architecting and Building - ログデータ用のデータレイク&分析環境をクイックに構築するには?」のレポートをお届けします。 概要 スピーカー アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 下佐粉 昭 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 野間 愛一郎 セッション概要 ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお

                    【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO
                  • [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO

                    [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce 大阪オフィスの玉井です。 2022年10月17日〜21日に行われたCoalesce 2022というハイブリッド(オンライン+オフライン)カンファレンスが開催されました。主催はdbt labs社です。 本記事は、その中で発表されたHow the Content Analytics team at Spotify avoids data indigestion in BigQuery with dbtというセッションについて、レポートをお届け致します。 セッション概要 登壇者 Nick Baker Senior Analytics Engineer , Spotify Brian Pei Analytics Engineer, Spotify 超概要 超有名サ

                      [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO
                    • データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる

                      最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていない データ分析基盤まとめ(随時更新) などもあり大変参考にさせていただきました。ありがとうございます。 はじめに データエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。この本は、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基本概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実

                        データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる
                      • Introducing Apache Arrow Flight SQL: Accelerating Database Access

                        Introducing Apache Arrow Flight SQL: Accelerating Database Access Published 16 Feb 2022 By José Almeida, James Duong, Vinicius Fraga, Juscelino Junior, David Li, Kyle Porter, Rafael Telles We would like to introduce Flight SQL, a new client-server protocol developed by the Apache Arrow community for interacting with SQL databases that makes use of the Arrow in-memory columnar format and the Flight

                          Introducing Apache Arrow Flight SQL: Accelerating Database Access
                        • Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO

                          AWS事業本部コンサルティング部の石川です。Amazon Athena は、INSERTなど一度に100パーティションを超える書き込みができません。ある時、「あれ、100パーティション超えてるやん」って事があり、それをきっかけに、何ができて何ができないのか、悶々と検証した結果、100パーティションの壁を超える方法をご紹介したいと思います。 先に結論 100パーティション超えたい場合は、Icebergテーブルフォーマとを用いて、パーティションの指定をbucket(100, <指定したいカラム名>)とする。 bucket(100, <指定したいカラム名>)は、ハッシュに基づき100のパーティションに分類されるため、パーティション内ではスキャンが発生する この方法を使用すると処理時間が長くなる傾向があり、バーティション数によっては、100パーティションの制限とは異なる理由で、エラーになる可能性が

                            Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO
                          • Data platformdesign

                            【中級者向け】データ基盤の機能の考え方 https://sqlserver.connpass.com/event/210962/ 2021/07/24 登壇資料Read less

                              Data platformdesign
                            • Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい

                              www.manning.com Designing Cloud Data Platformsという本を読みました。 どんな本か 2021年に出版されたデータ基盤の本です 大企業のデータ基盤の設計(コンサル・SIer?)の人が著者です データ基盤を大きく6つのレイヤー(下図)に分割し、それぞれの章で説明しています Data Lake(②)とDatat Warehouse(⑤)を組み合わせた基盤を、この本では「Data Platform」と呼んでいるかと思います(Data Warehouse単体との対比) 書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です (Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか) The Cloud Data Lakeや、 Fundamentals of

                                Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい
                              • Glue + Athenaのローカル開発環境をOSSで構築(MinIO + Trino + HIVE) | moritalous blog

                                この環境をDocker Composeを使い構築します。 環境構築​MinIO​まずはS3を置き換えるMinIOからです。 ポイントは path-styleではなくvirtual-hosted styleを使用するため、MINIO_DOMAIN環境変数をセット他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定path-styleとvirtual-hosted styleの違いはこちらを参照ください。 version: '3' services: minio: image: quay.io/minio/minio hostname: bucket001.minio restart: always volumes: - ./minio/data:/data environment: - MINIO_DOMAIN=minio command: ["server

                                  Glue + Athenaのローカル開発環境をOSSで構築(MinIO + Trino + HIVE) | moritalous blog
                                • 【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御 - Sansan Tech Blog

                                  研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当しているジャン(a.k.a jc)です。 データ基盤の構築はETL処理の実装やパイプラインの監視だけでなく、セキュリティ、データアクセス制御管理もデータエンジニアリングライフサイクルの一環として、重要な存在になっています*1。データ基盤の第四弾となる今回は、BigQuery上に構築したデータ基盤におけるGoogleグループ・IAMによるアクセス制御を中心に紹介したいと思います。 また、過去のデータ基盤関連の記事も併せてお読みいただければと思います。 【R&D DevOps通信】データ基盤におけるGitHub Actionsを使ったTerraformとCloud ComposerのCI/CD - Sansan Tech Blog 【R&D DevOps通信】Cloud Composerを用いたデータ基

                                    【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御 - Sansan Tech Blog
                                  • Amazon Deequを活用したデータ品質の計測

                                    本記事の背景 筆者は、普段、データエンジニアとしてデータパイプラインの構築やデータ管理を担当しています。最近は、チームからデータ不整合などデータ品質の問題が発生しているので改善したいと相談を受け、データガバナンス・データ管理の活動の1つとして、データ品質の計測と改善について、調査をしてきました。 その中で使い勝手の良さそうなOSSを2つほど見つけましたが、本記事では特にAWSを使っている人には始めやすいAmazon Deequを中心に計測のアプローチと本番環境の構築について紹介します。 そもそも品質とは何か?データ品質がなぜ重要か? Deequの詳細に入る前に、本調査のモチベーションとしてデータ品質の重要さについて説明します。 日本科学技練(品質管理の推進団体)のWebサイトによると品質の定義についてこう言及されています。 たとえばISO9000では「本来備わっている特性の集まりが要求事項

                                      Amazon Deequを活用したデータ品質の計測
                                    • Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO

                                      Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! はじめに クラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。 今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。 すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進

                                        Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO
                                      • ディレクターが学ぶデータエンジニアリング - Pepabo Tech Portal

                                        技術部データ基盤チームの@yrarchiです。2022年1月に現所属に異動してから約5カ月が経過しました。 異動前はホスティング事業部でディレクターとしてサービスに関わる数値の分析をしたり、分析結果を元にした施策の推進などをしていました。そのため、クエリを書く機会はあっても、データ基盤の整備に関わるような機会はありませんでした。今回、分析だけでなくデータ基盤の整備を含めたデータに関連する業務をより幅広く行えるようになるため、データ基盤チームへ異動することになりました。 この記事では、ディレクターがデータ基盤チームに入った結果、エンジニアリング面でどのような課題にぶつかり、どのように対応しているかを記載します。 対応した案件 データ基盤チームはデータ基盤の開発・運用を行っています。異動後に対応したことを技術要素に着目して挙げると以下のようになります。 Google Cloudのワークフローエ

                                          ディレクターが学ぶデータエンジニアリング - Pepabo Tech Portal
                                        • ユニファにおけるデータ分析基盤の開発 - ユニファ開発者ブログ

                                          こんにちは、データエンジニアリングチームの宮崎です。 最近、ユニファのデータを統合的に分析するための基盤開発に取り組んでおります。 そこで、本記事では開発の概要についてご紹介したいと思います。 開発のモチベーション これまで、ユニファでは日々のデータ分析にRedashを用い、直接サービス中のDBに対してクエリを投げて行ってきました。 しかし、サービスの成長とともにDBへの負荷が懸念されたり、複数のプロダクトやCRMのデータを組み合わせて統合的に分析したいという需要が高まってきました。 そこで、サービス中のDBから独立して実行可能で、よりリッチな分析を可能とするデータ分析基盤の開発に取り組み始めました。 データウェアハウスの選定 今回、データ分析基盤の中核となるデータウェアハウスとしてGCPのBigQueryを採用することにしました。 ユニファではメインのクラウドとしてAWSを活用しており、

                                            ユニファにおけるデータ分析基盤の開発 - ユニファ開発者ブログ
                                          • Hudi vs Delta vs Iceberg Lakehouse Feature Comparisons

                                            Apache Hudi vs Delta Lake vs Apache Iceberg - Data Lakehouse Feature Comparison IntroductionWith the growing popularity of the data lakehouse there has been a rising interest in the analysis and comparison of the three open source projects which are at the core of this data architecture: Apache Hudi, Delta Lake, and Apache Iceberg. Most comparison articles currently published seem to evaluate thes

                                              Hudi vs Delta vs Iceberg Lakehouse Feature Comparisons
                                            • 【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮

                                              はじめに Iceberg view概要 一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプト メタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド 「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方 引数 アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデア おわりに Appendix: Viewサポートに関連するPR はじめに 2024

                                                【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮
                                              • AWS Lambda×DuckDB×PyIcebergによるETLの実装

                                                はじめに 以前、AWS Lambda×DuckDBによる軽量ETLの実装という記事を投稿しました。 今回は最近話題のApache Iceberg形式に対応したLambdaベースのETLを実装したいと思います。 そもそもAWS GlueやEMRを使えば簡単に出来るのですが、軽量データセットの場合だとコスト面が合わないということもあると思います。 そういった場合に今回のようなAWS Lambdaを使ったETLが効果を発揮します。 ※ちなみに個人アカウントでGlueを使ってIcebergのテーブルをいじっていたら2万近くかかってしまったので、個人で使用する場合にも効果的かと思います! 今回のアーキテクチャ 今回のアーキテクチャはとてもシンプルです。 S3のファイルアップロードをトリガーにLambdaを起動し、S3(Iceberg)に書き込むものとなります。 ポイントはLambdaで使用する各種ラ

                                                  AWS Lambda×DuckDB×PyIcebergによるETLの実装

                                                新着記事