[3ページ] DataLakeの人気記事 200件 - はてなブックマーク

81 - 120 件 / 200件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果81 - 120 件 / 200件

How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
- 18 users
- martinfowler.com
- テクノロジー
- 2019/05/15
How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh Many enterprises are investing in their next generation data lake, with the hope of democratizing data at scale to provide business insights and ultimately make automated intelligent decisions. Data platforms based on the data lake architecture have common failure modes that lead to unfulfilled promises at scale. To address these
- dataLake
- thoughtworks
- DataGovernance
- datamesh
- architecture
- bigdata
- analytics
- data
チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
- 18 users
- engineer.retty.me
- テクノロジー
- 2019/12/24
昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。コミュニティの盛り上がりを感じる良いミートアップだったと思います。この記事では発表ではお話しできなかったことの補足も含め、我々のデータ基盤を取り巻く構成とその背景となる考え方について紹介したいと思います。誰のためのデザイン？データの民主化と基盤開発 Rettyにおけるデータウェアハウジングデータ基盤開発の標準化効果的なプラクティスの導入データウェアハウシングのための実践的なレイヤ構成データ置き場
- あとで読む
noteの機械学習フローを共通化してレコメンデーションで成果をあげた話｜やすけん / yskn67
- 18 users
- note.com/yskn67
- 暮らし
- 2022/08/10
こんにちは．noteの基盤開発グループ機械学習チームに所属している安井です．普段は機械学習を活用したシステムの開発から運用までトータルでおこなっています． noteでは記事の分類やレコメンデーションに機械学習を用いて作成されたモデルが使われています．いくつか例を挙げますと，noteに投稿された記事をカテゴリごとにまとめて見るために，記事をカテゴリごとに機械学習で分類しています．また，”あなたへのおすすめ”としてユーザごとにパーソナライズされたおすすめ記事をとどけるためにも機械学習が活用されています． (図1)noteにおける機械学習の活用箇所それらサービスで活用されている複数の機械学習モデルには記事の内容から分散表現を獲得する似たような仕組みが存在しました．今回はそれらを共通コンポーネントとして切り出し，分散表現を推論・保存まで行う仕組みを構築しました．また，その分散表現を活用したレコメン
- machineLearning
- 機械学習
今こそ注目！DWHにおけるデータモデリングとその歴史
- 17 users
- www.nttdata.com
- テクノロジー
- 2022/04/07
近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ
- DWH
- あとで読む
Home Page | Pachyderm
- 16 users
- www.pachyderm.com
- テクノロジー
- 2015/01/25
import cv2 import numpy as np from matplotlib import pyplot as plt import os # edges.py reads an image and outputs transformed image def make_edges(image): img = cv2.imread(image) tail = os.path.split(image)[1] edges = cv2.Canny(img,100,200) plt.imsave(os.path.join("/pfs/out", os.path.splitext(tail)[0]+'.png?as=webp'), edges, cmap = 'gray') # walk images directory and call make_edges on every file
AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた｜ DevelopersIO
- 16 users
- dev.classmethod.jp
- テクノロジー
- 2016/10/29
先日、『データレイク』で情報を調べてみたら『Building a Data Lake on AWS』というeBookの資料(PDF)がある事を知りました。比較的ボリューム短めで読み易かったので、当エントリではその読んでみた内容をご紹介してみたいと思います。 Data Lake on AWS 『データレイク』とは何か今日、組織では様々なソースからなる複数種別のデータを管理する業務が行われています。大規模なデータボリューム、様々なデータの種類に直面し、組織はタイムリーに洞察力を組織内に提供する為に、従来のデータ管理システム以上の敏捷性と柔軟性を備えるデータストレージと分析ソリューションを必要としています。 "データレイク"は、最近注目されるようになってきた新しい方法です。これら課題の多くに対応するデータを格納し、分析する事が出来ます。データレイクを構築する事で、組織は構造化されたもの、非構造
- aws
- データレイク
- DataLake
- report
- Saved For Later
- IT
[AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ資料及び QA 公開 | Amazon Web Services
- 16 users
- aws.amazon.com
- テクノロジー
- 2018/04/26
Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ資料及び QA 公開こんにちは、マーケティングの鬼形です。先日(2018/4/24)開催しました AWS Black Belt Online Seminar「AWS で構築するデータレイク基盤のアーキテクチャ」の資料を公開致しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180424 AWS Black Belt Online Seminar AWSで構築するデータレイク基盤のアーキテクチャ PDF 録画（オンデマンドセミナー） Q1. データスチュワードは、DataLake の TIer 1,2,3 および DWH 全てを定義・管理するイメージでしょうか？ A1. 企業ごとに運用事情は
- aws
- S3
- architecture
- Saved For Later
- web
- あとで読む
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
- 15 users
- www.slideshare.net/slideshow
- テクノロジー
- 2019/05/23
2019年4月16日（火）開催「PyData.Tokyo Meetup #19 SysML」の発表資料。データ活用施策を実サービスに組み込むには、データサイエンス・機械学習のスキルだけでなく、エンジニアリングスキルも必要です。そのため、毎回データサイエンティスト・エンジニアの工数が発生して施策がスローダウンしたり、そもそも実施を諦めることてしまうことも少なくありません。私たちリクルートライフスタイルの CET チームは、この問題を解消するため、データ活用のための統一基盤を開発・運用しデータサイエンティストだけで施策を実施できる環境を整えています。本セッションでは、その基盤がどのように構築されているのか、また実際にどのような施策が実施されているのかを具体的にご紹介します。 https://pydatatokyo.connpass.com/event/123479/Read less
- 機械学習
- あとで読む
LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET
- 15 users
- yomon.hatenablog.com
- テクノロジー
- 2019/06/06
小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成パッケージをアップロード Lambdaのコードエラー対応参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。３つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有
- pyarrow
- pandas
- lambda
- python
[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法資料及び QA 公開 | Amazon Web Services
- 15 users
- aws.amazon.com
- テクノロジー
- 2018/06/25
Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法資料及び QA 公開こんにちは、マーケティングの鬼形です。先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか？分析用にユーザ操作から
- dataLake
- aws
Data Meshとは何か？
- 15 users
- attsun1031.github.io
- テクノロジー
- 2021/06/09
Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基
- DataMesh
- データ基盤
DevelopersIO 2022 Snowflakeトーク＆ディスカッション～Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう！#devio2022 | DevelopersIO
- 14 users
- dev.classmethod.jp
- テクノロジー
- 2022/08/01
さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク＆ディスカッション～Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう！というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。登壇概要概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13～16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ
Cloud Composerでデータ基盤のワークフローを作る – Eureka Engineering – Medium
- 14 users
- medium.com
- テクノロジー
- 2018/12/11
この記事は eureka Advent Calendar 2018 11日目の記事です。どうも、みなさん、おはこんばんにちは。エウレカBIチームで、データ基盤をコソコソ作っているsotaroです。今年一番みて良かったアニメは『ヴァイオレット・エヴァーガーデン』と『ゆるキャン△』です。一番といったのに二つ選んですみません。キャンプしたいです。私は、主にPairsのデータを分析したり、分析するためのデータを作ったり整えたりするお仕事をしています。特に最近では、Pairsのデータ基盤を刷新するプロジェクトに注力しており、今日はそのプロジェクトの中で最近導入&試験運用を始めたGCPのマネージドAirflow、Cloud Composerについてご紹介します。なぜCloud Composerを使うことにしたのか？本題に入る前に、まずは「なぜ？何を？」などの外堀を埋めていきたいと思います。
Dataplex: data governance
- 14 users
- cloud.google.com
- テクノロジー
- 2021/06/20
Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.
- dataLake
- GCP
- analytics
- あとで読む
- dataplex
BigQuery のデータセットとテーブルを整理整頓する - キカガクプラットフォームブログ
- 13 users
- tech.kikagaku.co.jp
- テクノロジー
- 2022/05/27
前提状況整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理結論おわりにこんにちは、開発事業部で PM をしている丸山です。キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。前提本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。扱うデータソース
「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO
- 13 users
- dev.classmethod.jp
- テクノロジー
- 2018/06/25
「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR はじめに 2018年6月23日、札幌で開催されている「db analytics showcase Sapporo 2018」の玉川竜司さんのセッション「Parquet あるいは - まだCSVで消耗しているの？ -」へ参加してきましたのでそのレポートとなります。玉川さんのセッションは、単なるParquetの技術解説で終わらず、Apache ArrowによってHadoopエコシステムとPythonエコシステムの連携や、分散処理ではなくむしろ分散せずにローカルでうまくやるというパラダイムシフトを予感させる内容です。スピーカーあの玉川竜司さんです。「あの」って、、、そうです、下記の技術翻訳書をはじめ、他にも多数発刊している方です。
プロダクト中心のデータ駆動を推進していくために必要なこと
- 13 users
- speakerdeck.com/tohhy
- テクノロジー
- 2019/12/10
プロダクト開発メンバー主導の民主的なデータ活用を目指すとどの企業でも直面することになるであろういくつかの課題と、それらに対するピクシブ株式会社データ駆動推進室の取り組みをご紹介します。 Data Platform Meetup 【vol.2】の発表資料です。 https://data-platform-meetup.connpass.com/event/155073/ ピクシブ株式会社について： https://www.pixiv.co.jp/
- あとで読む
データ品質を重視したデータ基盤プロダクト開発
- 12 users
- speakerdeck.com/ttccddtoki
- テクノロジー
- 2023/04/11
データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (https://findy.connpass.com/event/278140/) の登壇資料になります。
Eurekaの DataPlatform開発状況と再現性の実現
- 12 users
- speakerdeck.com/t_kurimura
- テクノロジー
- 2020/02/05
使われないものを作るな！出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs
- データ基盤
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
- 12 users
- tech.gunosy.io
- テクノロジー
- 2021/12/04
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
FPGAによる大規模データ処理の高速化
- 12 users
- www.slideshare.net/slideshow
- テクノロジー
- 2018/02/24
長岡技術科学大学 2015年度先端GPGPUシミュレーション工学特論（全15回，大学院生対象講義）第5回GPUのメモリ階層の詳細�（様々なメモリの利用）� 2015年度先端GPGPUシミュレーション工学特論・第1回　先端シミュレーションおよび産業界におけるGPUの役割 http://www.slideshare.net/ssuserf87701/2015gpgpu1-59180313 ・第1回補足　GROUSEの利用方法 http://www.slideshare.net/ssuserf87701/2015gpgpu1-59180326 ・第2回　GPUによる並列計算の概念とメモリアクセス http://www.slideshare.net/ssuserf87701/2015gpgpu2-59180382 ・第3回　GPUプログラム構造の詳細（threadとwarp） http://w
- FPGA
Tonamelのデータ基盤 ~データモデリング編~
- 12 users
- speakerdeck.com/mashiike
- テクノロジー
- 2021/09/24
#nakanoshima_dev 9/22 18:30~ https://nakanoshima-dev.connpass.com/event/221243/ nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)の発表資料です。
- dbt
- 運用
- データ
- data
2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)
- 11 users
- nulab.com
- テクノロジー
- 2020/12/22
はじめにどうもこんにちは。鶴田です。ヌーラボではいわゆる縦割りの組織ではなくフラットな組織という考え方で組織活動が行われています。フラットというと勘違いしそうですが、誰でも役員やプロダクトマネージャに好き勝手に物事を言えたり、やりたいことを強行できたりということではありません。フラットだからこそしっかりと他者へ説明する義務が発生し、同時に自分の発言や行動に責任を持つことが必要です。こうして他者にフォロワーとなってもらい後押しを受けるということが前提で、誰にでも自分の考えを発信したり、やりたいことを実現する道が開けているということです。そのための仮説検証を行うため、誰でも必要な情報にアクセスできるという環境はフラットな組織の前提となります。この記事は、必要な情報に誰でもアクセスできるという環境を整えるために、2年ほど前から行ったAWS上でのデータ基盤の構築とその改善活動について段
- あとで読む
最新版Hadoopクラスタを運用して得られたもの
- 11 users
- www.slideshare.net/cyberagent
- テクノロジー
- 2017/10/01
2017/9/22(金) 開催サイバーエージェントのデータ分析基盤とデータ活用およびそれらの技術についての勉強会「Data Engineering and Data Analysis Workshop #2」
- hadoop
- management
データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO
- 11 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/03
どーも、データアナリティクス事業本部コンサルティングチームのsutoです。データマネジメントに関する知識を体系立ててまとめた「DMBOK」（ここでは第２版であるDMBOK2）には、広範なデータマネジメントの概念として11個の知識領域が定義されています。その中に「メタデータ」の管理に関する記述があります。増え続けるデータの種類と量の全体像を把握しやすくする目的として、業務用語とその利用法に関する組織の理解を提供する様々なソースのメタデータを収集し統合するメタデータにアクセスするための標準的な方法を提供するメタデータの品質とセキュリティを確保することをゴールとしてメタデータの管理を考えることの必要性を謳っています。じゃあ具体的に、『自分たちの組織の組織と照らし合わせてどんな方針で考えて整備していけばよいのだろう』という疑問に対して、「とりあえずメタデータ管理できるツールを入れれ
- data
- あとで読む
データ分析基盤を支えるエンジニアリング
- 10 users
- www.slideshare.net/RecruitLifestyle
- テクノロジー
- 2018/05/23
・リクルートライフスタイルのデータ分析基盤の紹介・データ分析基盤に必要なエンジニアリングリクルートライフスタイル白鳥昇治Read less
ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
- 10 users
- jmty-tech.hatenablog.com
- テクノロジー
- 2020/09/30
ジモティーiOSチーム所属のエンジニアの橋本です。普段はiOSアプリの開発に従事していますが､ Webやネイティブアプリ（iOS/Android）の各種計測データの収集や社内への展開などの業務にも従事しています。今回は､自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ（iOS/Android）が生み出す様々なデータは収集･蓄積・加工 ▶ 分析･活用という過程を経るわけですが､その利用目的は大きくは2つです。ジモティーというサービスの現状がどうなのか､サービスのコンディションの善し悪しを判断するための利用ユーザーの利用状況の傾向を把握し､次の打ち手を決める判断材料としての利用この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。エンジニア
- aws
ゆるやかにBigQuery（データ基盤）を安定活用するプラクティス集 #bq_sushi / 20180424
- 10 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2018/05/26
#bq_sushi tokyo #7 の登壇資料となります。 Shunketsu Oh 氏との共同発表です。 https://bq-sushi.connpass.com/event/82711/ refs. https://yuzutas0.hatenablog.com/entry/2018/05/30/090000
グロービスにおけるデータ基盤のアーキテクチャについて｜グロービス・デジタル・プラットフォーム
- 9 users
- note.com/globis_engineers
- テクノロジー
- 2022/06/06
はじめにはじめまして!! 株式会社グロービスのデジタル・プラットフォーム部門､データサイエンスチーム､データエンジニアリングユニットにてソフトウェアエンジニアをしております､爲岡 (ためおか) と申します｡ (肩書きが長くてすみません｡) グロービスには当初､機械学習エンジニアとして入社しましたが､現在は機械学習や分析に利用するためのデータ基盤の開発・運用をメインで担当しています｡この記事では､グロービスのデータエンジニアリングユニットが運用しているデータ基盤のアーキテクチャについてご紹介できればと思います｡グロービスについて突然ですが､皆様はグロービスに対してどのようなイメージをお持ちですか? 特にテクノロジーの領域で働く方々にとって､そもそもグロービスという企業を知らない､という方が大半なのではないか､と思っています｡また､もしご存じだとしても､経営大学院や研修事業など､テクノロ
- *data
- database
- architecture
- education
Nature のデータ基盤のご紹介 - Nature Engineering Blog
- 9 users
- engineering.nature.global
- テクノロジー
- 2022/04/21
Nature でデータエンジニアをしている原( @toohsk )です。データ分析を行う一方で、Nature に所属しているメンバーが幅広くデータの参照、分析ができるようになるためにデータ分析基盤の構築も行っています。今回は、Nature で構築しているデータ分析基盤を紹介したいと思います。どのようなデータ基盤にしたいのか Nature の重要なカルチャーでもありますが、Nature においてProduct Driven で事業が進みます。 speakerdeck.com Nature におけるプロダクトは、スマートフォンのアプリのみならず、ハードウェアやファームウェアなどの開発が含まれます。したがって、一重にエンジニアといえど、得意な技術領域は幅広くなります。また、エンジニア以外のメンバーも含めてサービスのデータにアクセスし、ファクトベースに意思決定できる環境を用意したいと考えてい
- データ
- あとで読む
AWS Lake Formation（安全なデータレイクを数日で構築）| AWS
- 9 users
- aws.amazon.com
- テクノロジー
- 2018/12/23
データアクセスの管理とスケーリングは複雑で時間がかかります。Lake Formation が、きめ細かいデータアクセス権限を一元的に管理およびスケールし、組織内外で自信を持ってデータを共有するのにどのように役立つかをご覧ください。
- aws
Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
- 9 users
- kaigai.hatenablog.com
- テクノロジー
- 2022/01/27
構想は半年ほど前？ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか？』という問題があります。例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。そこで、大量に収集するログデータを、少ない時間ロスで（つまり一時ファイルに保存したデータを再度DBにインポート
- あとで読む
Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました！ #reinvent | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2021/12/07
Icebergの強みを活かす INSERT INTOで300万レコードのデータコピー普通のAthenaのテーブルと比較して、オーバヘッドが生じることが確認できました。上記では、1レコードINSERTでも7秒かかったりしたので、300万レコードをINSERT INTOしたときの時間がどうなるのかを確認したいと思います。上記のテーブルからパーティションを取り除いて、INSERT INTOでデータのコピー先のテーブルを作成します。 CREATE TABLE iceberg_table ( id int, data string, category string) LOCATION 's3://<mybucket>/iceberg_table/' TBLPROPERTIES ( 'table_type'='ICEBERG', 'format'='parquet', 'compaction_bi
- AWS
- あとで読む
「データレイク」はデータウェアハウスとどこが違うの？ | IT Leaders
- 8 users
- it.impress.co.jp
- テクノロジー
- 2018/11/12
IT Leaders トップ＞テクノロジー一覧＞データマネジメント＞知っておいて損はない気になるキーワード解説＞「データレイク」はデータウェアハウスとどこが違うの？データマネジメントデータマネジメント記事一覧へ [知っておいて損はない気になるキーワード解説] 「データレイク」はデータウェアハウスとどこが違うの？ 2018年11月9日(金)清水響子リストマイクロサービス、RPA、デジタルツイン、AMP……。数え切れないほどの新しい思想やアーキテクチャ、技術等々に関するIT用語が、生まれては消え、またときに息を吹き返しています。メディア露出が増えれば何となくわかっているような気になって、でも実はモヤッとしていて、美味しそうな圏外なようなキーワードたちの数々を「それってウチに影響あるんだっけ？」という視点で分解してみたいと思います。今回はビッグデータやアナリティクス、ス
- データレイク
- datalake
- DWH
- IT
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
- 8 users
- tech.every.tv
- テクノロジー
- 2021/04/13
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか？ Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ
データアナリストが育てるDWH
- 8 users
- speakerdeck.com/wtnvenga
- テクノロジー
- 2021/07/29
[オンライン開催] Retty ✕ Mercari Analyst Talk Night!　登壇資料 https://mercari.connpass.com/event/218848/
- 開発
Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake
- 8 users
- medium.com
- テクノロジー
- 2019/05/28
こんにちは，NTTの山室です．今回の記事は4/23–25にサンフランシスコで開催されたSpark+AI Summitの参加レポートになります．興味のある情報への良い足がかりになることを目的に，個人的にチェックした内容を浅く広めに取り上げます．以下の公式サイトに大半の発表資料と動画が公開されていますので，興味がある方はそちらも併せて参照してください． Spark+AI Summit 2019 Agenda Summitの翌日に訪問した会場近くのDatabricks社Spark+AI Summitは現在年に2回アメリカ西海岸とヨーロッパで開催されているDatabricks（Sparkの作者が在籍する企業）主催のイベントです．特に毎年サンフランシスコで開催されるSummitは規模が大きく，今回世界中から5,000人を超える参加者が集まったそうです．この記事では個人的に興味を持った以下の内容
- 機械学習
- あとで読む
データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog
- 8 users
- tech.nri-net.com
- 暮らし
- 2021/05/20
こんにちは佐々木です。前回、データレイクとDWHを分離せよという趣旨の記事を書いていました。今回は、その続きとして、データレイクをRAWデータレイク・中間データレイク・構造化データレイクの３層構造がお勧めですよというお話をします。何の事でしょう？ RAWデータレイク・中間データレイク・構造化データレイクの役割データレイクに、RAWデータレイク・中間データレイク・構造化データレイクと３つの名前をつけました。まずこのネーミングはオリジナルで、ググっても出てきません。ここ数年、データ分析基盤を作ってきた中の経験で、こんな感じでデータレイクを３層に分けると良いなぁってなっています。層ごとに便宜的に名前をつけたのが、RAWデータレイク・中間データレイク・構造化データレイクです。それぞれの層の役割をみていきましょう。 RAWデータレイク RAWデータレイクは、名前のとおりに各データソースから送られ
Data Lake | Microsoft Azure
- 7 users
- azure.microsoft.com
- テクノロジー
- 2015/08/05
Azure を探索 Azure について安全かつ将来を見据えた、オンプレミス、ハイブリッド、マルチクラウド、エッジのクラウドソリューションについて調べるグローバルインフラストラクチャ他のどのプロバイダーよりも多くのリージョンを備える持続可能で信頼できるクラウドインフラストラクチャについての詳細情報クラウドの経済性 Azure の財務上および技術的に重要なガイダンスを利用して、クラウドのビジネスケースを作成する顧客イネーブルメント実績のあるツール、ガイダンス、リソースを使用して、クラウド移行の明確なパスを計画するお客様事例成功を収めたあらゆる規模と業界の企業によるイノベーションの例を参照する
はじめての Azure Data Lake ~ そもそも Data Lake って何？ ~
- 7 users
- learn.microsoft.com
- テクノロジー
- 2017/02/22
Microsoft Japan Data Platform Tech Sales Team 丹羽勝久 1. はじめに昨今、クラウドを中心としたトレンドとして、AI、IoT、機械学習などのキーワードが非常に盛んに取り上げられていますが、このような技術、手法が進化すればするほど、扱うデータの量、形態が多様になり、よりデータの蓄積基盤が重要になってきます。これらの領域が扱う大容量のデータ蓄積基盤の１つにデータウェアハウス（DWH）がありますが、このデータウェアハウスと併用して利用するデータレイク基盤が、現在注目されています。そもそもデータレイク基盤とは何でしょうか？何故、データウェアハウスだけでなく、データレイク基盤も必要なのでしょうか？ Wikipedia（英語版）を見ると、以下のような記述があります。 ※引用：Wikipediaより（ https://wikipedia.org ） T
- DataLake
- データ