並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 64 件 / 64件

新着順 人気順

DataLakeの検索結果41 - 64 件 / 64件

  • 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH

    本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak

      【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
    • Data Mesh の記事を読んだ - ブログ・ア・ラ・クレーム

      一年以上前の記事だけど、 https://martinfowler.com/ に "Data Mesh" をうたう記事があったので軽く読みました。 martinfowler.com こちらに日本語で概要をまとめた記事もありご一読することをおすすめします。 僕の個人ブログを見るより確実で良い情報を得られるでしょう。 https://www.infoq.com/jp/news/2020/03/distributed-data-mesh/ 以下では現行のぼくの業務と照らし合わせて、 Data Mesh について個人的解釈などを書いていきます。 Current status ... 二年くらい前に builderscon で "メルペイにおける、マイクロサービスに寄り添うログ収集基盤" みたいなタイトルで LT で発表したりしました。 当時、急速に開発されるマイクロサービス群と元から存在したモノリ

        Data Mesh の記事を読んだ - ブログ・ア・ラ・クレーム
      • カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ

        はじめに こんにちは。High Linkのデータエンジニアの芦川 (@hirorororo772) です。 私たちが運営する香水サブスクサービス「カラリア」では、「香水診断」、「レコメンド機能」、「フレグランスプロフィール」など、データを活用したさまざまな機能を提供しています。 こういった機能を提供するためには、ロジックの開発だけでなく、安定的に提供するための基盤や開発を加速させるためのCI/CD基盤やデータパイプラインの構築(MLOps)が重要になってきます。 今回は、カラリアにおけるデータを活用した機能の裏側についてご紹介したいと思います。 スタートアップである私たちは、小さくはじめてスピードは保ちつつ、中長期的に開発スピードや運用コストにレバレッジを効かせられるよう意識してきました。 設計面で考慮したポイントや、実際に運用してみた所感なども併せてご紹介いたしますので、これからミニマム

          カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ
        • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

          id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

            AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
          • dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~

            「Looker User Meetup Online #8」にて登壇した内容となっております

              dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~
            • メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog

              こんにちは、Mercari Analytics Blog 編集部です。 連載「メルカリのデータアナリストが向き合う11のテーマ」、今回はAnalytics Infraチーム、@nambさんによる記事です。@nambさんはデータアーキテクトとして入社し、メルカリのデータ分析基盤を整備しています。今回は「データ利用監視」というテーマで、仕事の内容を語っていただきました! データ基盤の改善は「利用状況の把握」から始まる――取り組みのミッションは何ですか? データの利用環境の改善を通じて、データに基づいた意思決定をサポートしています。 前提として、データセットやテーブルのメンテナンスにおいては、影響範囲の評価や優先順位の決定が重要だと考えています。メルカリでは、中間テーブル作成などの積極的なデータ環境改善に加え、プロダクトの改善・データフローのリニューアルに伴うデータのリプレースも常に並行して実施

                メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog
              • 「[増補改訂]ビッグデータを支える技術」を書きました - Qiita

                2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ [増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景 本書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。 本書の概要については次のページにまとめられています。 本書について ―改訂にあたって もともとは旧第6章のサンプルコードを書き直すくらいのつ

                  「[増補改訂]ビッグデータを支える技術」を書きました - Qiita
                • ジョーシスのデータ分析チームでの RDS → BigQuery 連携 - RAKSUL TechBlog

                  はじめに ラクスルグループジョーシス株式会社のデータ分析チームの「麦茶22」です。 ジョーシスは2021年9月にプロダクトをローンチし、2022年2月に Data Analytics Team が発足し、自分は2022年4月にチームに入りました。 チームに参加して初めてのタスクは、データウェアハウスを Single Source of Truth とする分析基盤をつくることでした。背景として、これまではアプリケーションの分析用 DB を Redash に接続して分析していましたが、データソースが増えたことや、クエリ・レポートの数が増えて管理しづらなくなったことがあり、チームの発足と合わせて分析基盤も整えることになりました。 本記事では、このタスクの一貫として行った、 RDS <-> BigQuery 間の連携をどのように構築したかをご紹介します。 前提 ジョーシスのアプリケーションは AW

                    ジョーシスのデータ分析チームでの RDS → BigQuery 連携 - RAKSUL TechBlog
                  • GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data

                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                      GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data
                    • OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO

                      OpenMetadataではデータリネージュ(データの流れ)を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。 その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。 発生してしまったらかなり怖いです。 よってスーパーユーザの権限はそもそも必要なく、 また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。 また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること

                        OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO
                      • 【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO

                        はじめに 皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です!! 本エントリではライブセッション「AAB-03:Architecting and Building - ログデータ用のデータレイク&分析環境をクイックに構築するには?」のレポートをお届けします。 概要 スピーカー アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 下佐粉 昭 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 野間 愛一郎 セッション概要 ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお

                          【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO
                        • [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO

                          [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce 大阪オフィスの玉井です。 2022年10月17日〜21日に行われたCoalesce 2022というハイブリッド(オンライン+オフライン)カンファレンスが開催されました。主催はdbt labs社です。 本記事は、その中で発表されたHow the Content Analytics team at Spotify avoids data indigestion in BigQuery with dbtというセッションについて、レポートをお届け致します。 セッション概要 登壇者 Nick Baker Senior Analytics Engineer , Spotify Brian Pei Analytics Engineer, Spotify 超概要 超有名サ

                            [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO
                          • Introducing Apache Arrow Flight SQL: Accelerating Database Access

                            Introducing Apache Arrow Flight SQL: Accelerating Database Access Published 16 Feb 2022 By José Almeida, James Duong, Vinicius Fraga, Juscelino Junior, David Li, Kyle Porter, Rafael Telles We would like to introduce Flight SQL, a new client-server protocol developed by the Apache Arrow community for interacting with SQL databases that makes use of the Arrow in-memory columnar format and the Flight

                              Introducing Apache Arrow Flight SQL: Accelerating Database Access
                            • データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog

                              はじめまして、エンジニアの黒瀬と申します。 弊社では、これまでバックエンドの監視にNew Relicを利用してきましたが、今回データ基盤にも導入を開始しました。 この記事では、その経緯についてご紹介したいと思います。 背景と課題 弊社ではTVerのサービス利用状況を日々収集し、それをBigQueryを中心としたデータ基盤に集約・可視化することで、日々のサービス改善に活用しています。 このプロセスは、おおむね次のような役割分担となっています。 収集処理:バックエンドを担当するバックエンドチームがAWSに構築 集約処理:データ基盤を担当するデータチームがGCPに構築 これらのうちデータチームでは、集約処理を構成するバッチごとにアラートを実装していましたが、下記のような問題がありました。 バッチごとに異なった方法でアラートを実装していたため、保守がしにくい アラートの通知先が散らばっており、毎回

                                データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog
                              • Data platformdesign

                                1. 【中級者向け】 データ基盤の機能の考え方 Principle of Data Platform design Microsoft MVP for Data Platform 2021 永田 亮磨 Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata 2. 1. はじめに 2. コンポーネントごと解説 参考 • 【オンラインセミナー】無制限の統合型データ分析サービス “Azure Synapse Analytics”導入前に知っておきたい、ビッグデータ アーキテクチャの構成ポイント徹底解説セミナー (少しライト目に同じような話をしています) • 最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる – Qiita • 最強のデータ分析基盤を目指して~汎用的なデータ分析基盤の選

                                  Data platformdesign
                                • Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい

                                  www.manning.com Designing Cloud Data Platformsという本を読みました。 どんな本か 2021年に出版されたデータ基盤の本です 大企業のデータ基盤の設計(コンサル・SIer?)の人が著者です データ基盤を大きく6つのレイヤー(下図)に分割し、それぞれの章で説明しています Data Lake(②)とDatat Warehouse(⑤)を組み合わせた基盤を、この本では「Data Platform」と呼んでいるかと思います(Data Warehouse単体との対比) 書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です (Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか) The Cloud Data Lakeや、 Fundamentals of

                                    Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい
                                  • 【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御 - Sansan Tech Blog

                                    研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当しているジャン(a.k.a jc)です。 データ基盤の構築はETL処理の実装やパイプラインの監視だけでなく、セキュリティ、データアクセス制御管理もデータエンジニアリングライフサイクルの一環として、重要な存在になっています*1。データ基盤の第四弾となる今回は、BigQuery上に構築したデータ基盤におけるGoogleグループ・IAMによるアクセス制御を中心に紹介したいと思います。 また、過去のデータ基盤関連の記事も併せてお読みいただければと思います。 【R&D DevOps通信】データ基盤におけるGitHub Actionsを使ったTerraformとCloud ComposerのCI/CD - Sansan Tech Blog 【R&D DevOps通信】Cloud Composerを用いたデータ基

                                      【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御 - Sansan Tech Blog
                                    • ピクシブでのデータメッシュについて - pixiv inside

                                      はじめに 初めまして。プラットフォーム開発部にてデータ基盤を整備しているkashiraと申します。 ピクシブでは中央集権的なデータ組織ではなく、非中央集権的なデータ組織(データの民主化)を目指して活動してきました。 その結果データメッシュに近い形で運用出来ていると感じているので、これについて話したいと思います。 ピクシブで非中央集権データ組織を採用した背景 ピクシブでは社員数に対してプロダクト数が多い事情があります。(2023年3月1日時点で正社員294人、15プロダクト) 正しいデータ分析をすることにおいて深いドメインの理解は必須であり中央のデータチームで全てのデータを分析することは現実的に厳しい事情がありました。 また各チームメンバーが自分のプロダクトにオーナーシップを持って取り組み、ユーザーのためにやれることはやる文化があります。 こういった事情から以下の理想を求めてデータの民主化を

                                        ピクシブでのデータメッシュについて - pixiv inside
                                      • Amazon Deequを活用したデータ品質の計測

                                        本記事の背景 筆者は、普段、データエンジニアとしてデータパイプラインの構築やデータ管理を担当しています。最近は、チームからデータ不整合などデータ品質の問題が発生しているので改善したいと相談を受け、データガバナンス・データ管理の活動の1つとして、データ品質の計測と改善について、調査をしてきました。 その中で使い勝手の良さそうなOSSを2つほど見つけましたが、本記事では特にAWSを使っている人には始めやすいAmazon Deequを中心に計測のアプローチと本番環境の構築について紹介します。 そもそも品質とは何か?データ品質がなぜ重要か? Deequの詳細に入る前に、本調査のモチベーションとしてデータ品質の重要さについて説明します。 日本科学技練(品質管理の推進団体)のWebサイトによると品質の定義についてこう言及されています。 たとえばISO9000では「本来備わっている特性の集まりが要求事項

                                          Amazon Deequを活用したデータ品質の計測
                                        • ディレクターが学ぶデータエンジニアリング - Pepabo Tech Portal

                                          技術部データ基盤チームの@yrarchiです。2022年1月に現所属に異動してから約5カ月が経過しました。 異動前はホスティング事業部でディレクターとしてサービスに関わる数値の分析をしたり、分析結果を元にした施策の推進などをしていました。そのため、クエリを書く機会はあっても、データ基盤の整備に関わるような機会はありませんでした。今回、分析だけでなくデータ基盤の整備を含めたデータに関連する業務をより幅広く行えるようになるため、データ基盤チームへ異動することになりました。 この記事では、ディレクターがデータ基盤チームに入った結果、エンジニアリング面でどのような課題にぶつかり、どのように対応しているかを記載します。 対応した案件 データ基盤チームはデータ基盤の開発・運用を行っています。異動後に対応したことを技術要素に着目して挙げると以下のようになります。 Google Cloudのワークフローエ

                                            ディレクターが学ぶデータエンジニアリング - Pepabo Tech Portal
                                          • ユニファにおけるデータ分析基盤の開発 - ユニファ開発者ブログ

                                            こんにちは、データエンジニアリングチームの宮崎です。 最近、ユニファのデータを統合的に分析するための基盤開発に取り組んでおります。 そこで、本記事では開発の概要についてご紹介したいと思います。 開発のモチベーション これまで、ユニファでは日々のデータ分析にRedashを用い、直接サービス中のDBに対してクエリを投げて行ってきました。 しかし、サービスの成長とともにDBへの負荷が懸念されたり、複数のプロダクトやCRMのデータを組み合わせて統合的に分析したいという需要が高まってきました。 そこで、サービス中のDBから独立して実行可能で、よりリッチな分析を可能とするデータ分析基盤の開発に取り組み始めました。 データウェアハウスの選定 今回、データ分析基盤の中核となるデータウェアハウスとしてGCPのBigQueryを採用することにしました。 ユニファではメインのクラウドとしてAWSを活用しており、

                                              ユニファにおけるデータ分析基盤の開発 - ユニファ開発者ブログ
                                            • https://jp.techcrunch.com/2020/02/25/2020-02-24-databricks-makes-bringing-data-into-its-lakehouse-easier/

                                                https://jp.techcrunch.com/2020/02/25/2020-02-24-databricks-makes-bringing-data-into-its-lakehouse-easier/
                                              • PyArrowとParquet - Atsuo Ishimoto's blog

                                                さて、ビッグデータ全盛の昨今、数ギガバイト程度のデータのやり取りは珍しくもなんともない時代になりました。交換用データファイルのフォーマットもいろいろな形式が使われていますが、ここではPythonで一般的に使われているファイル形式を簡単に検討してみましょう。 CSV¶昔から、単純な表形式のデータにはCSVが使われてきました。Microsoft Excelをはじめとしてさまざまなツールでサポートされており、幅広い環境で利用できます。 データの作成¶例として10万行・100カラムのデータを作成し、CSV形式で保存してみましょう。インデックスとして、datetime型の値を指定してます。 %pip install pandas pyarrow numpy tqdm dask graphviz import sys import numpy as np import pandas as pd pd.

                                                  PyArrowとParquet - Atsuo Ishimoto's blog
                                                • 分析基盤BIツールにQuickSightを選んだ理由 - エス・エム・エス エンジニア テックブログ

                                                  医療・介護・ヘルスケア・シニアライフの4つの領域で高齢社会に適した情報インフラを構築している株式会社エス・エム・エスのAnalytics&Innovation推進部( 以下、A&I推進部)でデータ分析基盤開発を担当している長谷川です。 A&I推進部はエス・エム・エス社内のデータを横断的に収集し、データの分析や加工から、データに基づく施策までを行う部門で、現在は介護事業者向け経営支援サービスである「カイポケ」や、介護職向け求人情報サービスである「カイゴジョブ」のデータ分析やレコメンドシステムの開発を行っています。 エス・エム・エスは多くのサービスでAWSを採用しており、A&I推進部においてもAWSのマネージドな機能を活用してデータ分析やサービス開発を行っています。 A&I推進部とは エス・エム・エスは主に医療・介護領域を事業のドメインとしていますが、それらのうち特に介護領域は労働集約型の事業

                                                    分析基盤BIツールにQuickSightを選んだ理由 - エス・エム・エス エンジニア テックブログ

                                                  新着記事