600ページを超える書籍である「データ指向アプリケーションデザイン」の要点を最近の話題を交えながら解説します。 Data Engineering Study #18 の発表資料です プレゼンテーション https://www.youtube.com/watch?v=ZiKWXc0fSCw …
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
データ基盤人材への需要が年々増えていることからも、企業のデータ活用はより注目を集めています。しかしゆずたそ氏によると、そこには「そもそもどのような基盤を作ればいいのか分からない」「基盤を作ったのに全然使われない」という2つの落とし穴があるそうです。そこで、実際に使われるデータ基盤の構築について、「使われるデータ基盤」構築の勘所を学ぶことをゴールに「なぜ作るのか(Why)」「どんな要素が必要なのか(What)」「どのように実現するのか(How)」の3つに分けて語られました。 ゆずたそ氏:「まずなぜ作るのか、この答えの1つは『お客様』のためです。特にレコメンドやAI活用が増えていく中でデータを活用すること自体が顧客の価値提供になっていきます。もう1つは『現場で働く人』のためです。しっかりとデータを見ながら現場の改善活動によって、業務が磨かれていきます。そして『経営』のためです。しっかり会社全体
In recent years, it would appear that data engineering is converging with DevOps. Both have embraced cloud infrastructure, containerization, CI/CD, and GitOps to deliver reliable digital products to their customers. The convergence on a subset of tooling has led many to the opinion that there is no significant distinction between data engineering and software engineering. Consequently, the fact th
Introduction DuckDB, the in-process DBMS specialized in OLAP workloads, had a very rapid growth during the last year, both in functionality, but also popularity amongst its users, but also with developers that contribute many projects to the Open Source DuckDB ecosystem. DuckDB cannot "only" be run on a variety of Operating Systems and Architectures, there's also a DuckDB-WASM version, that allows
Index - Data Engineering Wiki
大阪オフィスの玉井です。 2020年12月2日(水)、下記のイベントがオンラインで開催されました。 こちらのイベントにて、「DWH御三家の各特徴と選び方について〜SnowflakeとBigQueryとRedshiftと〜」という題名で、登壇させていただきました。というわけで(?)、使用した資料を公開致します。 改めて発表の概要 本イベントは、イベント名の通り、Snowflakeがメインの勉強会でした。しかし、私のパートでは、Snowflakeを含めた3つのクラウド型データウェアハウスを広く浅く紹介し、「どのデータウェアハウスを導入すればいいのか」という、データ分析担当者の悩みに対して、選定の観点となるポイントの例をいくつか示す内容となりました。 資料 資料の補足情報(リンク等) パフォーマンス セキュリティ スケーラビリティ primeNumber様(主催者)による公開リソース レポート
こんにちは、みてね事業部 開発グループ Data Engineering チームの sobataro です。 この記事では、「家族アルバム みてね」における「1秒動画」や「自動提案フォトブック」、「人物ごとのアルバム」といったコンテンツの自動生成・自動提案・自動分類機能を支える Data Engineering チームについて、その仕事や直近の取り組み、今後の課題をご紹介します。 Data Engineering チームの概要「家族アルバム みてね」では、画像認識に代表される機械学習技術を用い、コンテンツを自動生成・自動提案または自動分類する複数の機能を提供しています。 「人物ごとのアルバム」機能のイメージたとえば「人物ごとのアルバム」機能では、みてねのユーザさまにアップロードいただいた写真・動画をお子さまごとに自動分類し、また月齢ごとのコメントやメモも保存できるようにすることで、手作業に
IntroductionEarlier this summer Netflix held our first-ever Data Engineering Forum. Engineers from across the company came together to share best practices on everything from Data Processing Patterns to Building Reliable Data Pipelines. The result was a series of talks which we are now sharing with the rest of the Data Engineering community! You can find each of the talks below with a short descri
アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームの しんや です。 データ分析に於いて、「データオーケストレーション(Data orchestration)」という分野、カテゴリが存在します。端的に言うと「サイロ化されたデータを複数のストレージから一元化されたリポジトリに移動させ、そこで結合、クリーニング、エンリッチ化し、アクティブ化(ビジネス・インテリジェンス・ツールでのレポート作成など)するプロセス」(端的じゃなかった...) という定義となるのですが、2024年03月05日(火)に開催された『Data Engineering Study #23』にてこの「データオーケストレーション(Data orchestration)」を特集するということでイベントに参加(オンライン視聴)しました。 当エントリでは、その参加(視聴)内容についてざっくりではありますがレポ
最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていない データ分析基盤まとめ(随時更新) などもあり大変参考にさせていただきました。ありがとうございます。 はじめに データエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。この本は、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基本概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実
Tutorials Please check the Japanese version for the tutorial schedule and overview. Call for Tutorials At DEIM 2024, we are planning a tutorial that aims to update the basic knowledge of DEIM 2024 participants in a short time by introducing research areas that are currently getting or are beginning to get attention and the basic technologies that support them. DEIM 2024 is looking for a wide range
A year has passed since we shared the State of Data Engineering 2021. And since we released that article last May, not much has changed in the data landscape. In fact, we had discussions internally about whether we should even do an update for 2022. We kid. It was another year worthy of its own prime-time drama, and we’re back to share our updated, digestible snapshot of it all! What has changed t
Book: Data Engineering Design Patterns (DEDP) Hey there 👋, this is the start of a book about Data Engineering Design Patterns. About This Book This book is different from usual books. It does not come finished. I will steadily release new chapters of the book, carefully listen to all your feedback, and integrate them to create a (hopefully) great book at the end of the day. Keep an eye on the cha
先週はデータ基盤やデータ整備のイベントで2件登壇してきました。どちらもオンライン登壇でした。 Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」 CROSS Party online 2020 データ整備人が語る!DXにも不可欠なデータ整備の姿 今後の予定 Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」 @yuzutas0さんにお声がけいただきまして、登壇することになりました。聴講者数多いし、他の登壇者の方もプロな方ばかりだったので、登壇前は胃が痛かった...。 私が担当しているデータ基盤、現時点ではめちゃくちゃ巨大なデータをパイプラインで扱っているわけでもなく、リアルタイム性がめちゃくちゃ重視されたりというわけでもなく、割と素朴なデータ基盤です。派手さはなくてひたすら地味ですが、世の中的にはむしろこちらの
Google BigQueryのニュースまとめ ビューのカラムにdescriptionを指定可能に (プレビュー) CREATE VIEW を実行する際にカラムにdescriptionをつけることが可能になりました。 詳しくは Data definition language (DDL) statements in GoogleSQL をご参照ください。 インタラクティブクエリ・バッチクエリのタイムアウト時間のデフォルト値が設定可能に(プレビュー) クエリキューを使う際に、インタラクティブクエリ・バッチクエリのタイムアウト時間のデフォルト値を指定することが可能になりました。 詳しくは デフォルト構成を管理する をご確認ください。 YAML 構成ファイルを使用して SQL コードを変換することが可能に(プレビュー) インタラクティブ SQL トランスレータやバッチ SQL 変換を実行する際に
Kuwala is the data workspace for BI analysts and engineers enabling you to build powerful analytics workflows together. We are set out to bring state-of-the-art data engineering tools you love, such as Airbyte, dbt and Prefect together in one intuitive interface built with React Flow. Do you want to discuss your first contribution, want to learn more in general, or discuss your specific use-case f
本イベントは、Infra Study Meetup を運営する Forkwell と、分析基盤向けデータ統合SaaS「trocco」の開発・運営を行う primeNumber による共催イベントです。データ分析に精通した講師をお招きし、データ分析基盤の「これまで」と「これから」を学ぶことを趣旨として開催いたします。 開催内容 概要 本イベントでは、ゆずたそ氏(@yuzutas0)にモデレーターを依頼し、複数回にわたって、各回テーマに沿った内容で各分野でご活躍されているエンジニア/研究者に講演いただきます。 また、講演後には視聴者の方も参加できる二次会会場(Zoom)を用意しています。登壇者と共にデータエンジニアリングに関する学びを深めましょう。 開催背景 Forkwell からのコメント 本イベントは、Infra Study Meetup に注目していただいた primeNumber さま
MLOps is Mostly Data Engineering Introduction MLOps is a relatively recent term. A quick search on Google Trends reveals that the term started being searched for, around the end of 2019. Upon examining the trend line above, we can observe a significant spike that occurred at the end of 2021. Since then, the interest has remained high. ML is not something new though, if we check Google Trends for t
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要 対象書籍を翻訳して輪読する勉強会です。 対象書籍 Fundamentals of Data Engineering (O'Reilly, 2022/07) https://www.amazon.co.jp/dp/1098108302/ 第00回 Preface 2023/04/03 connpass:https://gaisaba.connpass.com/event/279517/ 資料:https://qiita.com/Shumpei_Kubo/items/9cb9145b4b695b3b5346 箇所:Preface 第0
Data engineering at Meta: High-Level Overview of the internal tech stack This article provides an overview of the internal tech stack that we use on a daily basis as data engineers at Meta. The idea is to shed some light on the work we do, and how the tools and frameworks contribute to making our day-to-day data engineering work more efficient, and to share some of the design decisions and technic
過去の Data Engineering Study のアーカイブはこちらからご視聴いただけます。 開催内容 概要 本イベントは、Infra Study Meetup を運営する Forkwell と、分析基盤向けデータ統合SaaS「trocco」の開発・運営を行う primeNumber による共催イベントです。データ分析に精通した講師をお招きし、データ分析基盤の「これまで」と「これから」を学ぶことを趣旨として開催いたします。 複数回にわたって、各回テーマに沿った内容で各分野でご活躍されているエンジニア/研究者に講演いただきます。 質疑応答の時間には、ゆずたそ氏(@yuzutas0)にもご参加いただきます。 プログラム第18回「データ指向アプリケーションデザイン」 こんなエンジニアにおすすめ データ指向アプリケーションデザインを読んでいる・読もうと思っている方 ソフトウェアエンジニア・ア
By Abhinaya Shetty, Bharath Mummadisetty At Netflix, our Membership and Finance Data Engineering team harnesses diverse data related to plans, pricing, membership life cycle, and revenue to fuel analytics, power various dashboards, and make data-informed decisions. Many metrics in Netflix’s financial reports are powered and reconciled with efforts from our team! Given our role on this critical pat
⏳プログラム 0:00〜 待ち時間 9:03〜 オープニング 15:14〜 基調講演「30分でわかるデータ指向アプリケーションデザイン」Principal Software Engineer , Treasure Data 斉藤 太郎 氏 55:56〜 休憩 / スポンサーLT Forkwell 1:03:44〜 質疑応答(基調講演) 1:23:02〜 スポンサーLT「troccoフリープランはじめてみた」primeNumber 小林 寛和 氏 1:27:56〜 トークセッション パネリスト: 田籠 聡 氏 / 斉藤 太郎 氏 モデレーター: primeNumber 小林 寛和 氏 1:32:12〜 1. 本書籍を更に深く学ぶ方法 1:51:20〜 2. 本書籍からの技術進歩に関するアップデートについて 2:08:27〜 3. 本書籍の技術の応用について 2:21:00〜 4.
▍プログラム 0:00 〜 待ち時間 9:06 〜 オープニング primeNumber 小林 寛和 / Forkwell 重本 / ゆずたそ氏 16:03 〜 講演 ヤフー株式会社 データ統括本部/サイエンス統括本部/CDO管掌 駒宮 大己氏 「データをデザインすること」 38:47 〜 質疑応答 駒宮 大己氏 × ゆずたそ氏 52:38 〜 スポンサーLT Forkwell 森 1:04:40 〜 講演 Tableau Zen Master/日本航空 我如古 聡志氏 「『Pre-Attentive Attribute』『ゲシュタルト法則』で考えるデータ視覚化と、その魅力」 1:28:05 〜 質疑応答 我如古 聡志氏 × ゆずたそ氏 1:38:25 〜 スポンサーLT primeNumber 小林 寛和 1:49:41 〜 講演 デジタル庁 / Digital Agency of Ja
過去の Data Engineering Study のアーカイブはこちらからご視聴いただけます。 開催内容 概要 本イベントは、Infra Study Meetup を運営する Forkwell と、分析基盤向けデータ統合SaaS「trocco」の開発・運営を行う primeNumber による共催イベントです。データ分析に精通した講師をお招きし、データ分析基盤の「これまで」と「これから」を学ぶことを趣旨として開催いたします。 複数回にわたって、各回テーマに沿った内容で各分野でご活躍されているエンジニア/研究者に講演いただきます。 質疑応答の時間には、ゆずたそ氏(@yuzutas0)にもご参加いただきます。 プログラム第20回「10年戦えるデータ分析入門」 基調講演「さらに10年戦えるかもしれないデータ分析入門 〜AIとDXの時代をこの先生きのこるには〜」 青木峰郎氏(@mineroao
What is the Problem with Data Engineering Today?If you search for a clear definition of what data engineering actually is, you’ll get so many different proposals that it leaves you with more questions than answers. But as I want to explain what needs to be redefined, I’ll better use one of the more popular definitions that clearly represents the current state and mess we all face: Data engineering
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く