並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 200件

新着順 人気順

DataLakeの検索結果81 - 120 件 / 200件

  • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

    How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh Many enterprises are investing in their next generation data lake, with the hope of democratizing data at scale to provide business insights and ultimately make automated intelligent decisions. Data platforms based on the data lake architecture have common failure modes that lead to unfulfilled promises at scale. To address these

      How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
    • チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog

      昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。 コミュニティの盛り上がりを感じる良いミートアップだったと思います。 この記事では発表ではお話しできなかったことの補足も含め、 我々のデータ基盤を取り巻く構成と その背景となる考え方について紹介したいと思います。 誰のためのデザイン? データの民主化と基盤開発 Rettyにおけるデータウェアハウジング データ基盤開発の標準化 効果的なプラクティスの導入 データウェアハウシングのための実践的なレイヤ構成 データ置き場

        チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
      • noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67

        こんにちは.noteの基盤開発グループ機械学習チームに所属している安井です.普段は機械学習を活用したシステムの開発から運用までトータルでおこなっています. noteでは記事の分類やレコメンデーションに機械学習を用いて作成されたモデルが使われています.いくつか例を挙げますと,noteに投稿された記事をカテゴリごとにまとめて見るために,記事をカテゴリごとに機械学習で分類しています.また,”あなたへのおすすめ”としてユーザごとにパーソナライズされたおすすめ記事をとどけるためにも機械学習が活用されています. (図1)noteにおける機械学習の活用箇所それらサービスで活用されている複数の機械学習モデルには記事の内容から分散表現を獲得する似たような仕組みが存在しました.今回はそれらを共通コンポーネントとして切り出し,分散表現を推論・保存まで行う仕組みを構築しました.また,その分散表現を活用したレコメン

          noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67
        • 今こそ注目!DWHにおけるデータモデリングとその歴史

          近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。 本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。 目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

            今こそ注目!DWHにおけるデータモデリングとその歴史
          • Home Page | Pachyderm

            import cv2 import numpy as np from matplotlib import pyplot as plt import os # edges.py reads an image and outputs transformed image def make_edges(image): img = cv2.imread(image) tail = os.path.split(image)[1] edges = cv2.Canny(img,100,200) plt.imsave(os.path.join("/pfs/out", os.path.splitext(tail)[0]+'.png?as=webp'), edges, cmap = 'gray') # walk images directory and call make_edges on every file

              Home Page | Pachyderm
            • AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた | DevelopersIO

              先日、『データレイク』で情報を調べてみたら『Building a Data Lake on AWS』というeBookの資料(PDF)がある事を知りました。比較的ボリューム短めで読み易かったので、当エントリではその読んでみた内容をご紹介してみたいと思います。 Data Lake on AWS 『データレイク』とは何か 今日、組織では様々なソースからなる複数種別のデータを管理する業務が行われています。大規模なデータボリューム、様々なデータの種類に直面し、組織はタイムリーに洞察力を組織内に提供する為に、従来のデータ管理システム以上の敏捷性と柔軟性を備えるデータストレージと分析ソリューションを必要としています。 "データレイク"は、最近注目されるようになってきた新しい方法です。これら課題の多くに対応するデータを格納し、分析する事が出来ます。データレイクを構築する事で、組織は構造化されたもの、非構造

                AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた | DevelopersIO
              • [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services

                Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日(2018/4/24)開催しました AWS Black Belt Online Seminar「AWS で構築するデータレイク基盤のアーキテクチャ」の資料を公開致しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180424 AWS Black Belt Online Seminar AWSで構築するデータレイク基盤のアーキテクチャ PDF 録画(オンデマンドセミナー) Q1. データスチュワードは、DataLake の TIer 1,2,3 および DWH 全てを定義・管理するイメージでしょうか? A1. 企業ごとに運用事情は

                  [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services
                • データサイエンティストが力を発揮できるアジャイルデータ活用基盤

                  2019年4月16日(火)開催「PyData.Tokyo Meetup #19 SysML」の発表資料。 データ活用施策を実サービスに組み込むには、データサイエンス・機械学習のスキルだけでなく、エンジニアリングスキルも必要です。そのため、毎回データサイエンティスト・エンジニアの工数が発生して施策がスローダウンしたり、そもそも実施を諦めることてしまうことも少なくありません。私たちリクルートライフスタイルの CET チームは、この問題を解消するため、データ活用のための統一基盤を開発・運用しデータサイエンティストだけで施策を実施できる環境を整えています。本セッションでは、その基盤がどのように構築されているのか、また実際にどのような施策が実施されているのかを具体的にご紹介します。 https://pydatatokyo.connpass.com/event/123479/Read less

                    データサイエンティストが力を発揮できるアジャイルデータ活用基盤
                  • LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET

                    小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 パッケージをアップロード Lambdaのコード エラー対応 参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。 3つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有

                      LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET
                    • [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services

                      Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から

                        [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services
                      • Data Meshとは何か?

                        Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                          Data Meshとは何か?
                        • DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO

                          さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ

                            DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO
                          • Cloud Composerでデータ基盤のワークフローを作る – Eureka Engineering – Medium

                            この記事は eureka Advent Calendar 2018 11日目の記事です。 どうも、みなさん、おはこんばんにちは。 エウレカBIチームで、データ基盤をコソコソ作っているsotaroです。 今年一番みて良かったアニメは『ヴァイオレット・エヴァーガーデン』と『ゆるキャン△』です。一番といったのに二つ選んですみません。キャンプしたいです。 私は、主にPairsのデータを分析したり、分析するためのデータを作ったり整えたりするお仕事をしています。 特に最近では、Pairsのデータ基盤を刷新するプロジェクトに注力しており、今日はそのプロジェクトの中で最近導入&試験運用を始めたGCPのマネージドAirflow、Cloud Composerについてご紹介します。 なぜCloud Composerを使うことにしたのか?本題に入る前に、まずは「なぜ?何を?」などの外堀を埋めていきたいと思います。

                              Cloud Composerでデータ基盤のワークフローを作る – Eureka Engineering – Medium
                            • Dataplex: data governance

                              Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.

                                Dataplex: data governance
                              • BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ

                                前提 状況 整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理 結論 おわりに こんにちは、開発事業部で PM をしている丸山です。 キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。 データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。 前提 本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。 扱うデータソース

                                  BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ
                                • 「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO

                                  「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR はじめに 2018年6月23日、札幌で開催されている「db analytics showcase Sapporo 2018」の玉川竜司さんのセッション「Parquet あるいは - まだCSVで消耗しているの? -」へ参加してきましたのでそのレポートとなります。 玉川さんのセッションは、単なるParquetの技術解説で終わらず、Apache ArrowによってHadoopエコシステムとPythonエコシステムの連携や、分散処理ではなくむしろ分散せずにローカルでうまくやるというパラダイムシフトを予感させる内容です。 スピーカー あの玉川竜司さんです。「あの」って、、、そうです、下記の技術翻訳書をはじめ、他にも多数発刊している方です。

                                    「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO
                                  • プロダクト中心のデータ駆動を推進していくために必要なこと

                                    プロダクト開発メンバー主導の民主的なデータ活用を目指すとどの企業でも直面することになるであろういくつかの課題と、それらに対するピクシブ株式会社データ駆動推進室の取り組みをご紹介します。 Data Platform Meetup 【vol.2】の発表資料です。 https://data-platform-meetup.connpass.com/event/155073/ ピクシブ株式会社について: https://www.pixiv.co.jp/

                                      プロダクト中心のデータ駆動を推進していくために必要なこと
                                    • データ品質を重視したデータ基盤プロダクト開発

                                      データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (https://findy.connpass.com/event/278140/) の登壇資料になります。

                                        データ品質を重視したデータ基盤プロダクト開発
                                      • Eurekaの DataPlatform開発状況と再現性の実現

                                        使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs

                                          Eurekaの DataPlatform開発状況と再現性の実現
                                        • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                          広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                            更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                          • FPGAによる大規模データ処理の高速化

                                            長岡技術科学大学 2015年度先端GPGPUシミュレーション工学特論(全15回,大学院生対象講義) 第5回GPUのメモリ階層の詳細�(様々なメモリの利用)� 2015年度先端GPGPUシミュレーション工学特論 ・第1回 先端シミュレーションおよび産業界におけるGPUの役割 http://www.slideshare.net/ssuserf87701/2015gpgpu1-59180313 ・第1回補足 GROUSEの利用方法 http://www.slideshare.net/ssuserf87701/2015gpgpu1-59180326 ・第2回 GPUによる並列計算の概念とメモリアクセス http://www.slideshare.net/ssuserf87701/2015gpgpu2-59180382 ・第3回 GPUプログラム構造の詳細(threadとwarp) http://w

                                              FPGAによる大規模データ処理の高速化
                                            • Tonamelのデータ基盤 ~データモデリング編~

                                              #nakanoshima_dev 9/22 18:30~ https://nakanoshima-dev.connpass.com/event/221243/ nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)の発表資料です。

                                                Tonamelのデータ基盤 ~データモデリング編~
                                              • 2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)

                                                はじめに どうもこんにちは。鶴田です。 ヌーラボではいわゆる縦割りの組織ではなくフラットな組織という考え方で組織活動が行われています。 フラットというと勘違いしそうですが、誰でも役員やプロダクトマネージャに好き勝手に物事を言えたり、やりたいことを強行できたりということではありません。フラットだからこそしっかりと他者へ説明する義務が発生し、同時に自分の発言や行動に責任を持つことが必要です。 こうして他者にフォロワーとなってもらい後押しを受けるということが前提で、誰にでも自分の考えを発信したり、やりたいことを実現する道が開けているということです。 そのための仮説検証を行うため、誰でも必要な情報にアクセスできるという環境はフラットな組織の前提となります。 この記事は、必要な情報に誰でもアクセスできるという環境を整えるために、2年ほど前から行ったAWS上でのデータ基盤の構築とその改善活動について段

                                                  2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)
                                                • 最新版Hadoopクラスタを運用して得られたもの

                                                  2017/9/22(金) 開催 サイバーエージェントのデータ分析基盤とデータ活用およびそれらの技術についての勉強会「Data Engineering and Data Analysis Workshop #2」

                                                    最新版Hadoopクラスタを運用して得られたもの
                                                  • データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO

                                                    どーも、データアナリティクス事業本部コンサルティングチームのsutoです。 データマネジメントに関する知識を体系立ててまとめた「DMBOK」(ここでは第2版であるDMBOK2)には、広範なデータマネジメントの概念として11個の知識領域が定義されています。 その中に「メタデータ」の管理に関する記述があります。増え続けるデータの種類と量の全体像を把握しやすくする目的として、 業務用語とその利用法に関する組織の理解を提供する 様々なソースのメタデータを収集し統合する メタデータにアクセスするための標準的な方法を提供する メタデータの品質とセキュリティを確保する ことをゴールとしてメタデータの管理を考えることの必要性を謳っています。 じゃあ具体的に、『自分たちの組織の組織と照らし合わせてどんな方針で考えて整備していけばよいのだろう』という疑問に対して、「とりあえずメタデータ管理できるツールを入れれ

                                                      データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO
                                                    • データ分析基盤を支えるエンジニアリング

                                                      ・リクルートライフスタイルのデータ分析基盤の紹介 ・データ分析基盤に必要なエンジニアリング リクルートライフスタイル 白鳥昇治Read less

                                                        データ分析基盤を支えるエンジニアリング
                                                      • ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

                                                        ジモティーiOSチーム所属のエンジニアの橋本です。 普段はiOSアプリの開発に従事していますが、 Webやネイティブアプリ(iOS/Android)の各種計測データの収集や社内への展開などの業務にも従事しています。 今回は、自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。 組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ(iOS/Android)が生み出す様々なデータは 収集・蓄積・加工 ▶ 分析・活用 という過程を経るわけですが、その利用目的は大きくは2つです。 ジモティーというサービスの現状がどうなのか、 サービスのコンディションの善し悪しを判断するための利用 ユーザーの利用状況の傾向を把握し、次の打ち手を決める判断材料としての利用 この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。 エンジニア

                                                          ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
                                                        • ゆるやかにBigQuery(データ基盤)を安定活用するプラクティス集 #bq_sushi / 20180424

                                                          #bq_sushi tokyo #7 の登壇資料となります。 Shunketsu Oh 氏との共同発表です。 https://bq-sushi.connpass.com/event/82711/ refs. https://yuzutas0.hatenablog.com/entry/2018/05/30/090000

                                                            ゆるやかにBigQuery(データ基盤)を安定活用するプラクティス集 #bq_sushi / 20180424
                                                          • グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム

                                                            はじめにはじめまして!! 株式会社グロービスのデジタル・プラットフォーム部門、データサイエンスチーム、データエンジニアリングユニットにてソフトウェアエンジニアをしております、爲岡 (ためおか) と申します。 (肩書きが長くてすみません。) グロービスには当初、機械学習エンジニアとして入社しましたが、現在は機械学習や分析に利用するためのデータ基盤の開発・運用をメインで担当しています。 この記事では、グロービスのデータエンジニアリングユニットが運用しているデータ基盤のアーキテクチャについてご紹介できればと思います。 グロービスについて突然ですが、皆様はグロービスに対してどのようなイメージをお持ちですか? 特にテクノロジーの領域で働く方々にとって、そもそもグロービスという企業を知らない、という方が大半なのではないか、と思っています。 また、もしご存じだとしても、経営大学院や研修事業など、テクノロ

                                                              グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム
                                                            • Nature のデータ基盤のご紹介 - Nature Engineering Blog

                                                              Nature でデータエンジニアをしている原( @toohsk )です。 データ分析を行う一方で、Nature に所属しているメンバーが幅広くデータの参照、分析ができるようになるためにデータ分析基盤の構築も行っています。 今回は、Nature で構築しているデータ分析基盤を紹介したいと思います。 どのようなデータ基盤にしたいのか Nature の重要なカルチャーでもありますが、Nature においてProduct Driven で事業が進みます。 speakerdeck.com Nature におけるプロダクトは、スマートフォンのアプリのみならず、ハードウェアやファームウェアなどの開発が含まれます。したがって、一重にエンジニアといえど、得意な技術領域は幅広くなります。また、エンジニア以外のメンバーも含めてサービスのデータにアクセスし、ファクトベースに意思決定できる環境を用意したいと考えてい

                                                                Nature のデータ基盤のご紹介 - Nature Engineering Blog
                                                              • AWS Lake Formation(安全なデータレイクを数日で構築)| AWS

                                                                データアクセスの管理とスケーリングは複雑で時間がかかります。Lake Formation が、きめ細かいデータアクセス権限を一元的に管理およびスケールし、組織内外で自信を持ってデータを共有するのにどのように役立つかをご覧ください。

                                                                  AWS Lake Formation(安全なデータレイクを数日で構築)| AWS
                                                                • Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

                                                                  構想は半年ほど前?ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。 そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』という問題があります。 例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。 そこで、大量に収集するログデータを、少ない時間ロスで(つまり一時ファイルに保存したデータを再度DBにインポート

                                                                    Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
                                                                  • Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました! #reinvent | DevelopersIO

                                                                    Icebergの強みを活かす INSERT INTOで300万レコードのデータコピー 普通のAthenaのテーブルと比較して、オーバヘッドが生じることが確認できました。上記では、1レコードINSERTでも7秒かかったりしたので、300万レコードをINSERT INTOしたときの時間がどうなるのかを確認したいと思います。 上記のテーブルからパーティションを取り除いて、INSERT INTOでデータのコピー先のテーブルを作成します。 CREATE TABLE iceberg_table ( id int, data string, category string) LOCATION 's3://<mybucket>/iceberg_table/' TBLPROPERTIES ( 'table_type'='ICEBERG', 'format'='parquet', 'compaction_bi

                                                                      Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました! #reinvent | DevelopersIO
                                                                    • 「データレイク」はデータウェアハウスとどこが違うの? | IT Leaders

                                                                      IT Leaders トップ > テクノロジー一覧 > データマネジメント > 知っておいて損はない気になるキーワード解説 > 「データレイク」はデータウェアハウスとどこが違うの? データマネジメント データマネジメント記事一覧へ [知っておいて損はない気になるキーワード解説] 「データレイク」はデータウェアハウスとどこが違うの? 2018年11月9日(金)清水 響子 リスト マイクロサービス、RPA、デジタルツイン、AMP……。数え切れないほどの新しい思想やアーキテクチャ、技術等々に関するIT用語が、生まれては消え、またときに息を吹き返しています。メディア露出が増えれば何となくわかっているような気になって、でも実はモヤッとしていて、美味しそうな圏外なようなキーワードたちの数々を「それってウチに影響あるんだっけ?」という視点で分解してみたいと思います。今回はビッグデータやアナリティクス、ス

                                                                        「データレイク」はデータウェアハウスとどこが違うの? | IT Leaders
                                                                      • Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog

                                                                        Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ

                                                                          Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
                                                                        • データアナリストが育てるDWH

                                                                          [オンライン開催] Retty ✕ Mercari Analyst Talk Night! 登壇資料 https://mercari.connpass.com/event/218848/

                                                                            データアナリストが育てるDWH
                                                                          • Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake

                                                                            こんにちは,NTTの山室です. 今回の記事は4/23–25にサンフランシスコで開催されたSpark+AI Summitの参加レポートになります.興味のある情報への良い足がかりになることを目的に,個人的にチェックした内容を浅く広めに取り上げます. 以下の公式サイトに大半の発表資料と動画が公開されていますので,興味がある方はそちらも併せて参照してください. Spark+AI Summit 2019 Agenda Summitの翌日に訪問した会場近くのDatabricks社Spark+AI Summitは現在年に2回アメリカ西海岸とヨーロッパで開催されているDatabricks(Sparkの作者が在籍する企業)主催のイベントです.特に毎年サンフランシスコで開催されるSummitは規模が大きく,今回世界中から5,000人を超える参加者が集まったそうです. この記事では個人的に興味を持った以下の内容

                                                                              Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake
                                                                            • データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog

                                                                              こんにちは佐々木です。 前回、データレイクとDWHを分離せよという趣旨の記事を書いていました。今回は、その続きとして、データレイクをRAWデータレイク・中間データレイク・構造化データレイクの3層構造がお勧めですよというお話をします。何の事でしょう? RAWデータレイク・中間データレイク・構造化データレイクの役割 データレイクに、RAWデータレイク・中間データレイク・構造化データレイクと3つの名前をつけました。まずこのネーミングはオリジナルで、ググっても出てきません。ここ数年、データ分析基盤を作ってきた中の経験で、こんな感じでデータレイクを3層に分けると良いなぁってなっています。層ごとに便宜的に名前をつけたのが、RAWデータレイク・中間データレイク・構造化データレイクです。それぞれの層の役割をみていきましょう。 RAWデータレイク RAWデータレイクは、名前のとおりに各データソースから送られ

                                                                                データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog
                                                                              • Data Lake | Microsoft Azure

                                                                                Azure を探索 Azure について 安全かつ将来を見据えた、オンプレミス、ハイブリッド、マルチクラウド、エッジのクラウド ソリューションについて調べる グローバル インフラストラクチャ 他のどのプロバイダーよりも多くのリージョンを備える持続可能で信頼できるクラウド インフラストラクチャについての詳細情報 クラウドの経済性 Azure の財務上および技術的に重要なガイダンスを利用して、クラウドのビジネス ケースを作成する 顧客イネーブルメント 実績のあるツール、ガイダンス、リソースを使用して、クラウド移行の明確なパスを計画する お客様事例 成功を収めたあらゆる規模と業界の企業によるイノベーションの例を参照する

                                                                                • はじめての Azure Data Lake ~ そもそも Data Lake って何? ~

                                                                                  Microsoft Japan Data Platform Tech Sales Team 丹羽 勝久 1. はじめに 昨今、クラウドを中心としたトレンドとして、AI、IoT、機械学習などのキーワードが非常に盛んに取り上げられていますが、このような技術、手法が進化すればするほど、扱うデータの量、形態が多様になり、よりデータの蓄積基盤が重要になってきます。これらの領域が扱う大容量のデータ蓄積基盤の1つにデータウェアハウス(DWH)がありますが、このデータウェアハウスと併用して利用するデータレイク基盤が、現在注目されています。 そもそもデータレイク基盤とは何でしょうか?何故、データウェアハウスだけでなく、データレイク基盤も必要なのでしょうか? Wikipedia(英語版)を見ると、以下のような記述があります。 ※引用:Wikipediaより( https://wikipedia.org ) T

                                                                                    はじめての Azure Data Lake ~ そもそも Data Lake って何? ~