  • [2024年4月10日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

    さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Modern Data Stack全般 Google Cloud Next '24が開催中 現地時間の2024年4月9日~11日に、Google Cloud Next '24が開催されています。 データ分析基盤に関連するところだと、Gemini in Looker、Gemini in BigQuery、Gemini in Lookerなどの発表が該当すると

    • Data Engineer: Interview Questions

      Here is a list of common data engineering interview questions, with answers, which you may encounter for an interview as a data engineer. The questions during an interview for a data engineer aim to check not only the grasp of data systems and architectures but also a keen understanding of your technical prowess and problem-solving skills. This article lists essential interview questions and answe

      • Book: Data Engineering Design Patterns (DEDP): Timeless Practices for Data Engineers

        Book: Data Engineering Design Patterns (DEDP) Hey there 👋, this is the start of a book about Data Engineering Design Patterns. About This Book This book is different from usual books. It does not come finished. I will steadily release new chapters of the book, carefully listen to all your feedback, and integrate them to create a (hopefully) great book at the end of the day. Keep an eye on the cha

        • データ職種の課題図書リストを作りたい - 下町柚子黄昏記 by @yuzutas0

          この記事は datatech-jp Advent Calendar 2023 3日目の記事です。 背景・趣旨 筆者(@yuzutas0)は風音屋(@Kazaneya_PR)という会社を経営しており、データ職種の採用・育成に関心を持っています。 複数企業で少ない専門家を奪い合って疲弊するような採用活動ではなく、マーケット全体がより豊かになるような動き方はできないだろうかと模索しています。 1つの実験として、MENTAで「第2新卒が3ヶ月でデータ職種への転職を目指す講座」というトレーニングを提供し、ありがたいことに30名以上の方々に受講いただきました。 ちなみにこの講座は今では風音屋の社内研修になっています。 MENTAの受講者が30名を突破しました🎉 卒業生が風音屋に入社したり、スキルアップして「社内で提案が通るようになった」「現職で活躍できるようになった」という感想もいただいています。

          • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

            • Amazon Redshift + dbt ユーザー必読の書「Best Practices for Leveraging Amazon Redshift and dbt」を読んでみた | DevelopersIO

              Amazon Redshift + dbt ユーザー必読の書「Best Practices for Leveraging Amazon Redshift and dbt」を読んでみた データアナリティクス事業本部のコンサルティングチームの石川です。今日は、AWSが執筆した Amazon Redshiftとdbtを活用するためのベストプラクティスをまとめたホワイトペーパーを紹介します。 Best Practices for Leveraging Amazon Redshift and dbt™ リンクから誰でもダウンロードできます。 Redshift + dbtを導入しているけれど、果たしてこれが正しい使い方なのかモヤモヤしている方は少なくないと想像してます。筆者もその一人ですが、そのような方々の道標になれば幸いです。 目次 Abstract Introduction Amazon Reds

              • Kalyn: a self-hosting compiler for x86-64

                Over the course of my Spring 2020 semester at Harvey Mudd College, I developed a self-hosting compiler entirely from scratch. This article walks through many interesting parts of the project. It’s laid out so you can just read from beginning to end, but if you’re more interested in a particular topic, feel free to jump there. Or, take a look at the project on GitHub. Table of contents What the pro

                • Youtubeの嫌いなチャンネルをブロックしまくったら3000以上のチャンネルをブロックしてしまった話|TubeNote

                  ご存知の方も多いと思いますが、BrowserのアドオンのChannel Blockerを使えば、Youtubeの嫌いなチャンネルブロックできます。(スマホでは無理、スマホからSSHでPCに接続し、Browserを開けば上手く行くかもしれませんが試してません。) 私は、Youtubeの切り抜きが大嫌いです。特に、不安を煽るようなサムネ、タイトルが多くて激しく嫌悪感を覚えます。おすすめと検索で勝手に表示されるため、キリがありません。 チャンネルブロッカーを使っても、害虫のように湧いて出てきます。今現在、私がブロックしているチャンネルを公開したいと思います。このリストが誰かの役に立つことを願っています。 以下、Youtubeチャンネルブロックリスト(約3000) { "0": { "\bDJふぉい切り抜きランド": 53, "(パーソル パ・リーグTV公式)PacificLeagueTV": 5

                  • Ready Or Not. The Post Modern Data Stack Is Coming.

                    Ready or Not. The Post Modern Data Stack Is Coming. Barr Moses CEO and Co-founder, Monte Carlo. Proponent of data reliability and action movies. Shane Murray Shane is Field CTO of Monte Carlo. Previously, he served as the SVP of Data & Insights at The New York Times. If you don’t like change, data engineering is not for you. Little in this space has escaped reinvention. The most prominent, recent

                    • [レポート] dbtウェビナー『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました! #dbt_classmethod | DevelopersIO

                      [レポート] dbtウェビナー『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました! #dbt_classmethod 2023年03月14日(火)、モダンデータスタック(MDS)を構成するサービスの1つであるdbtにちなんだイベント『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました。モダンデータスタック及びdbtに関しては下記ページをご参照ください。 このイベントはオンライン(Livestormによる配信)及びオフライン(弊社クラスメソッド岩本町オフィス)でのハイブリッド開催となりました。オフライン開催分については諸々状況を鑑みて少数招待に留める形となりましたが、オンライン開催分に関しては定員数250人を超える参加申し込みがありました。これは嬉しい状況でした。 当日のTwitterつぶやきまとめはこちらです。 当エントリでは会場の模様

                      • Star Schema vs. OBT for Data Warehouse Performance | Blog | Fivetran

                        Which data warehouse schema offers better performance? Let’s find out. ContentsStar schema vs. OBT: An analysis of which is better for your data warehouse‍ The results: Denormalized tables result in faster query response‍ Analysis details‍ Other considerations Data warehouse modeling is a crucial but overlooked part of the development of a data warehouse. Data warehouse modeling is the process of

                        • グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム

                          はじめにはじめまして!! 株式会社グロービスのデジタル・プラットフォーム部門、データサイエンスチーム、データエンジニアリングユニットにてソフトウェアエンジニアをしております、爲岡 (ためおか) と申します。 (肩書きが長くてすみません。) グロービスには当初、機械学習エンジニアとして入社しましたが、現在は機械学習や分析に利用するためのデータ基盤の開発・運用をメインで担当しています。 この記事では、グロービスのデータエンジニアリングユニットが運用しているデータ基盤のアーキテクチャについてご紹介できればと思います。 グロービスについて突然ですが、皆様はグロービスに対してどのようなイメージをお持ちですか? 特にテクノロジーの領域で働く方々にとって、そもそもグロービスという企業を知らない、という方が大半なのではないか、と思っています。 また、もしご存じだとしても、経営大学院や研修事業など、テクノロ

                          • What's New in Emacs 28.1?

                            Try Mastering Emacs for free! Are you struggling with the basics? Have you mastered movement and editing yet? When you have read Mastering Emacs you will understand Emacs. It’s that time again: there’s a new major version of Emacs and, with it, a treasure trove of new features and changes. Notable features include the formal inclusion of native compilation, a technique that will greatly speed up y

                            • dbt とは何をするツールなのか? | FLYWHEEL Tech ブログ

                              こんにちは、ソフトウェアエンジニアの冨田です。 弊社では一部のプロジェクトで dbt (data build tool) の導入を始めました。私が初めて dbt を学んだときの感想は「結局何をしてくれるものかわからない」「何が嬉しいかよくわからない」といったものでした。dbt に少し触れ、同じ感想を抱いている方は多いのではないでしょうか。 本記事では dbt に興味があるがどんなツールか具体的にイメージできない読者を対象に、dbt が Modern Data Stack で果たす役割や dbt が行う処理の中身について紹介したいと思います。 なお、本記事は主に dbt CLI に焦点を当てて紹介しており、dbt Cloud 特有の機能や特徴については説明をしていません。 dbt とは何か?Modern Data Stack における位置づけdbt 自体の説明をする前に、近年広がってきている

                              • Enterprise Data Warehouse

                                Enterprise Data Warehouse Overview The Enterprise Data Warehouse (EDW) is used for reporting and analysis. It is a central repository of current and historical data from GitLab’s Enterprise Applications. We use an ELT method to Extract, Load, and Transform data in the EDW. We use Snowflake as our EDW and use dbt to transform data in the EDW. The Data Catalog contains Analytics Hubs, Data Guides, D

                                • Announcing OpenMetadata

                                  Open-source project to supercharge your Metadata initiative What’s the magic key to unlocking value from Data, the most valuable asset in an organization in 2021? Here’s a hint: It’s currently used in a limited way, which is discovery and governance in most companies. The new emerging use cases are data quality, observability, and the emerging theme — powering people collaboration. Well, if you ha

                                  • [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO

                                    [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。 イベント概要 公式 Kimball in

                                    • Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics

                                      Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics Michael Armbrust1, Ali Ghodsi1,2, Reynold Xin1, Matei Zaharia1,3 1Databricks, 2UC Berkeley, 3Stanford University Abstract This paper argues that the data warehouse architecture as we know it today will wither in the coming years and be replaced by a new architectural pattern, the Lakehouse, which will

                                        • [レポート] Best Practices from Experts to Maximize BigQuery Performance (featuring Twitter) – Google Cloud Next ’20: OnAir #GoogleCloudNext | DevelopersIO

                                          現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。 このイベントでは、2020年7月14日から毎週、異なるテーマで様々なセッションや催しのコンテンツが公開されています。(コンテンツは PDT[米国太平洋標準時(夏時間)]での火曜日午前9時→JST[日本時間]の水曜午前1時に配信される形になっています) 1.[2020/07/14〜] Industry Insights 2.[2020/07/21〜] Productivity & Collaboration 3.[2020/07/28〜] Infrastructure 4.[2020/08/04〜] Security 5.[2020/08/11〜] Data Analytics 6.[2020/08/18〜]

                                          • PostgreSQL is the worlds' best database - 2ndQuadrant | PostgreSQL

                                            The title is not clickbait or hyperbole. I intend to prove that by virtue of both design and implementation that PostgreSQL is objectively and measurably a better database than anything currently available, with or without money considerations. How in the world can I claim and justify such a lofty statement? Read on, gentle nerd. I promise that your time will not be wasted. Transparent Security Po

                                            • Enterprise Data Team

                                              The GitLab Enterprise Data Team is responsible for empowering every GitLab team member to contribute to the data program and generate business value from our data assets. Welcome to the Enterprise Data Team Handbook Our Vision is to Contribute to GitLab’s journey of becoming the leading AllOps platform by responsibly harnessing the power of data. In pursuit of our vision, we will focus on 4 outcom

                                              • データモデルの設計とベストプラクティス(第1部)

                                                ビジネスアプリケーション、データ統合、マスターデータ管理、データウェアハウジング、ビッグデータデータレイク、機械学習といったものは、いずれもデータモデルが共通の基本的要素となります(または、そうあるべきです)。この点を常に念頭に置きましょう。あるいは、(よく見られることですが)完全に無視することがないように注意してください。 データモデルこそが、Eコマースから、PoS、財務、製品、顧客管理、ビジネスインテリジェンス、IoTまで、Talendの高価値でミッションクリティカルのビジネスソリューションのほとんどすべての支柱です。適切なデータモデルがなければ、ビジネスデータはおそらく失われてしまうでしょう! Talendのジョブ設計パターンとベストプラクティスについて取り上げたブログシリーズ(第1部、第2部、第3部、第4部)では、32のベストプラクティスを紹介し、Talendでジョブを構築する最善

                                                • ETL and ELT design patterns for lake house architecture using Amazon Redshift: Part 1 | Amazon Web Services

                                                  AWS Big Data Blog ETL and ELT design patterns for lake house architecture using Amazon Redshift: Part 1 New: Read Amazon Redshift continues its price-performance leadership to learn what analytic workload trends we’re seeing from Amazon Redshift customers, new capabilities we have launched to improve Redshift’s price-performance, and the results from the latest benchmarks. Part 1 of this multi-pos

                                                  • ELT 伊藤 一朗いっくんTVが面白い! 動画3本ピックアップしてご紹介! - 特撮は大人の嗜みです。

                                                    • BigQuery ETL: 11 Best Practices For High Performance | Hevo

                                                      Google BigQuery – a fully managed Cloud Data Warehouse for analytics from Google Cloud Platform (GCP), is one of the most popular Cloud-based analytics solutions. Due to its unique architecture and seamless integration with other services from GCP, there are certain best practices to be considered while configuring Google BigQuery ETL (Extract, Transform, Load) & migrating data to BigQuery. This a

