[2ページ] DataLakeの人気記事 63件 - はてなブックマーク

41 - 63 件 / 63件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果41 - 63 件 / 63件

カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ
- 5 users
- tech.high-link.co.jp
- テクノロジー
- 2022/11/15
はじめにこんにちは。High Linkのデータエンジニアの芦川 (@hirorororo772) です。私たちが運営する香水サブスクサービス「カラリア」では、「香水診断」、「レコメンド機能」、「フレグランスプロフィール」など、データを活用したさまざまな機能を提供しています。こういった機能を提供するためには、ロジックの開発だけでなく、安定的に提供するための基盤や開発を加速させるためのCI/CD基盤やデータパイプラインの構築（MLOps）が重要になってきます。今回は、カラリアにおけるデータを活用した機能の裏側についてご紹介したいと思います。スタートアップである私たちは、小さくはじめてスピードは保ちつつ、中長期的に開発スピードや運用コストにレバレッジを効かせられるよう意識してきました。設計面で考慮したポイントや、実際に運用してみた所感なども併せてご紹介いたしますので、これからミニマム
AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2021/03/24
id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項デプロイパッケ
- python
AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
- 5 users
- zenn.dev/simpleform_blog
- テクノロジー
- 2024/04/16
こんにちは。シンプルフォーム株式会社にてインフラエンジニアをしています、山岸です。社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。概要当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま
- aws
dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~
- 5 users
- speakerdeck.com/tenajima
- テクノロジー
- 2022/07/22
「Looker User Meetup Online #8」にて登壇した内容となっております
メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法｜Mercari Analytics Blog
- 4 users
- note.com/mercari_data
- テクノロジー
- 2022/05/25
こんにちは、Mercari Analytics Blog 編集部です。連載「メルカリのデータアナリストが向き合う11のテーマ」、今回はAnalytics Infraチーム、@nambさんによる記事です。@nambさんはデータアーキテクトとして入社し、メルカリのデータ分析基盤を整備しています。今回は「データ利用監視」というテーマで、仕事の内容を語っていただきました！データ基盤の改善は「利用状況の把握」から始まる――取り組みのミッションは何ですか？データの利用環境の改善を通じて、データに基づいた意思決定をサポートしています。前提として、データセットやテーブルのメンテナンスにおいては、影響範囲の評価や優先順位の決定が重要だと考えています。メルカリでは、中間テーブル作成などの積極的なデータ環境改善に加え、プロダクトの改善・データフローのリニューアルに伴うデータのリプレースも常に並行して実施
「［増補改訂］ビッグデータを支える技術」を書きました - Qiita
- 4 users
- qiita.com/k24d
- テクノロジー
- 2021/02/08
2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ［増補改訂］ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景本書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。本書の概要については次のページにまとめられています。本書について ―改訂にあたってもともとは旧第６章のサンプルコードを書き直すくらいのつ
- テクノロジー
GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data
- 4 users
- github.com/treeverse
- テクノロジー
- 2021/06/14
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- GitHub
- Software
[レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/01
[レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce 大阪オフィスの玉井です。 2022年10月17日〜21日に行われたCoalesce 2022というハイブリッド（オンライン+オフライン）カンファレンスが開催されました。主催はdbt labs社です。本記事は、その中で発表されたHow the Content Analytics team at Spotify avoids data indigestion in BigQuery with dbtというセッションについて、レポートをお届け致します。セッション概要登壇者 Nick Baker Senior Analytics Engineer , Spotify Brian Pei Analytics Engineer, Spotify 超概要超有名サ
- techfeed
【レポート】Architecting and Building – ログデータ用のデータレイク＆分析環境をクイックに構築するには？ #AWSSummit | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/09
はじめに皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です！！本エントリではライブセッション「AAB-03：Architecting and Building - ログデータ用のデータレイク＆分析環境をクイックに構築するには？」のレポートをお届けします。概要スピーカーアマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト下佐粉昭アマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト野間愛一郎セッション概要ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお
- aws
- あとで読む
データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる
- 4 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2024/03/21
最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていないデータ分析基盤まとめ（随時更新）などもあり大変参考にさせていただきました。ありがとうございます。はじめにデータエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。この本は、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基本概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実
Introducing Apache Arrow Flight SQL: Accelerating Database Access
- 4 users
- arrow.apache.org
- テクノロジー
- 2022/02/17
Introducing Apache Arrow Flight SQL: Accelerating Database Access Published 16 Feb 2022 By José Almeida, James Duong, Vinicius Fraga, Juscelino Junior, David Li, Kyle Porter, Rafael Telles We would like to introduce Flight SQL, a new client-server protocol developed by the Apache Arrow community for interacting with SQL databases that makes use of the Arrow in-memory columnar format and the Flight
Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/10/27
AWS事業本部コンサルティング部の石川です。Amazon Athena は、INSERTなど一度に100パーティションを超える書き込みができません。ある時、「あれ、100パーティション超えてるやん」って事があり、それをきっかけに、何ができて何ができないのか、悶々と検証した結果、100パーティションの壁を超える方法をご紹介したいと思います。先に結論 100パーティション超えたい場合は、Icebergテーブルフォーマとを用いて、パーティションの指定をbucket(100, <指定したいカラム名>)とする。 bucket(100, <指定したいカラム名>)は、ハッシュに基づき100のパーティションに分類されるため、パーティション内ではスキャンが発生するこの方法を使用すると処理時間が長くなる傾向があり、バーティション数によっては、100パーティションの制限とは異なる理由で、エラーになる可能性が
- AWS
Data platformdesign
- 3 users
- www.slideshare.net/slideshow
- テクノロジー
- 2021/09/09
【中級者向け】データ基盤の機能の考え方 https://sqlserver.connpass.com/event/210962/ 2021/07/24 登壇資料Read less
Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい
- 3 users
- not-rogue.hatenablog.com
- テクノロジー
- 2023/03/07
www.manning.com Designing Cloud Data Platformsという本を読みました。どんな本か 2021年に出版されたデータ基盤の本です大企業のデータ基盤の設計（コンサル・SIer？）の人が著者ですデータ基盤を大きく６つのレイヤー（下図）に分割し、それぞれの章で説明しています Data Lake（②）とDatat Warehouse（⑤）を組み合わせた基盤を、この本では「Data Platform」と呼んでいるかと思います（Data Warehouse単体との対比）書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です（Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか） The Cloud Data Lakeや、 Fundamentals of
Glue + Athenaのローカル開発環境をOSSで構築（MinIO + Trino + HIVE） | moritalous blog
- 3 users
- blog.bedrock.day
- テクノロジー
- 2023/05/18
この環境をDocker Composeを使い構築します。環境構築MinIOまずはS3を置き換えるMinIOからです。ポイントは path-styleではなくvirtual-hosted styleを使用するため、MINIO_DOMAIN環境変数をセット他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定path-styleとvirtual-hosted styleの違いはこちらを参照ください。 version: '3' services: minio: image: quay.io/minio/minio hostname: bucket001.minio restart: always volumes: - ./minio/data:/data environment: - MINIO_DOMAIN=minio command: ["server
- aws
【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御 - Sansan Tech Blog
- 3 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2022/11/19
研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当しているジャン(a.k.a jc)です。データ基盤の構築はETL処理の実装やパイプラインの監視だけでなく、セキュリティ、データアクセス制御管理もデータエンジニアリングライフサイクルの一環として、重要な存在になっています*1。データ基盤の第四弾となる今回は、BigQuery上に構築したデータ基盤におけるGoogleグループ・IAMによるアクセス制御を中心に紹介したいと思います。また、過去のデータ基盤関連の記事も併せてお読みいただければと思います。【R&D DevOps通信】データ基盤におけるGitHub Actionsを使ったTerraformとCloud ComposerのCI/CD - Sansan Tech Blog 【R&D DevOps通信】Cloud Composerを用いたデータ基
- bigquery
Amazon Deequを活用したデータ品質の計測
- 3 users
- zenn.dev/yohei
- テクノロジー
- 2021/01/16
本記事の背景筆者は、普段、データエンジニアとしてデータパイプラインの構築やデータ管理を担当しています。最近は、チームからデータ不整合などデータ品質の問題が発生しているので改善したいと相談を受け、データガバナンス・データ管理の活動の1つとして、データ品質の計測と改善について、調査をしてきました。その中で使い勝手の良さそうなOSSを2つほど見つけましたが、本記事では特にAWSを使っている人には始めやすいAmazon Deequを中心に計測のアプローチと本番環境の構築について紹介します。そもそも品質とは何か？データ品質がなぜ重要か？ Deequの詳細に入る前に、本調査のモチベーションとしてデータ品質の重要さについて説明します。日本科学技練（品質管理の推進団体）のWebサイトによると品質の定義についてこう言及されています。たとえばISO9000では「本来備わっている特性の集まりが要求事項
Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！ | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/09
Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！はじめにクラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進
- AWS
ディレクターが学ぶデータエンジニアリング - Pepabo Tech Portal
- 3 users
- tech.pepabo.com
- テクノロジー
- 2022/05/26
技術部データ基盤チームの@yrarchiです。2022年1月に現所属に異動してから約5カ月が経過しました。異動前はホスティング事業部でディレクターとしてサービスに関わる数値の分析をしたり、分析結果を元にした施策の推進などをしていました。そのため、クエリを書く機会はあっても、データ基盤の整備に関わるような機会はありませんでした。今回、分析だけでなくデータ基盤の整備を含めたデータに関連する業務をより幅広く行えるようになるため、データ基盤チームへ異動することになりました。この記事では、ディレクターがデータ基盤チームに入った結果、エンジニアリング面でどのような課題にぶつかり、どのように対応しているかを記載します。対応した案件データ基盤チームはデータ基盤の開発・運用を行っています。異動後に対応したことを技術要素に着目して挙げると以下のようになります。 Google Cloudのワークフローエ
- ruby
ユニファにおけるデータ分析基盤の開発 - ユニファ開発者ブログ
- 3 users
- tech.unifa-e.com
- テクノロジー
- 2022/06/10
こんにちは、データエンジニアリングチームの宮崎です。最近、ユニファのデータを統合的に分析するための基盤開発に取り組んでおります。そこで、本記事では開発の概要についてご紹介したいと思います。開発のモチベーションこれまで、ユニファでは日々のデータ分析にRedashを用い、直接サービス中のDBに対してクエリを投げて行ってきました。しかし、サービスの成長とともにDBへの負荷が懸念されたり、複数のプロダクトやCRMのデータを組み合わせて統合的に分析したいという需要が高まってきました。そこで、サービス中のDBから独立して実行可能で、よりリッチな分析を可能とするデータ分析基盤の開発に取り組み始めました。データウェアハウスの選定今回、データ分析基盤の中核となるデータウェアハウスとしてGCPのBigQueryを採用することにしました。ユニファではメインのクラウドとしてAWSを活用しており、
- あとで読む
【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮
- 3 users
- bering.hatenadiary.com
- テクノロジー
- 2024/03/31
はじめに Iceberg view概要一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプトメタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方引数アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデアおわりに Appendix: Viewサポートに関連するPR はじめに 2024
- データ
Hudi vs Delta vs Iceberg Lakehouse Feature Comparisons
- 3 users
- www.onehouse.ai
- テクノロジー
- 2022/09/19
IntroductionWith the growing popularity of the data lakehouse there has been a rising interest in the analysis and comparison of the three open source projects which are at the core of this data architecture: Apache Hudi, Delta Lake, and Apache Iceberg. Most comparison articles currently published seem to evaluate these projects merely as table/file formats for traditional append-only workloads, o
- データ
AWS Lambda×DuckDB×PyIcebergによるETLの実装
- 3 users
- zenn.dev/penginpenguin
- テクノロジー
- 2025/02/27
はじめに以前、AWS Lambda×DuckDBによる軽量ETLの実装という記事を投稿しました。今回は最近話題のApache Iceberg形式に対応したLambdaベースのETLを実装したいと思います。そもそもAWS GlueやEMRを使えば簡単に出来るのですが、軽量データセットの場合だとコスト面が合わないということもあると思います。そういった場合に今回のようなAWS Lambdaを使ったETLが効果を発揮します。 ※ちなみに個人アカウントでGlueを使ってIcebergのテーブルをいじっていたら2万近くかかってしまったので、個人で使用する場合にも効果的かと思います！今回のアーキテクチャ今回のアーキテクチャはとてもシンプルです。 S3のファイルアップロードをトリガーにLambdaを起動し、S3(Iceberg）に書き込むものとなります。ポイントはLambdaで使用する各種ラ
- python
- あとで読む