タグ

ブックマーク / satoshihirose.hateblo.jp (5)

  • CREを一年やってみたサマリー - satoshihirose.log

    転職して一年経過した CREとしてTDに転職して、一年経過したので今の所感とどんなことやったのかをまとめる。 一人目ロールのCRE 前々職ではAWSインフラに詳しくなって、前職でデータ基盤の開発・運用をした。データ基盤の開発運用は基的には保守的な活動である。次の職では、会社のKPI改善をより直接サポートできるような領域をやっていきたいと思い、これまでの知見を生かしてデータ基盤の上のレイヤーの活用領域を出来れば良いなと思っていた。TDで募集していたCRE職は、サポートチーム内の一人目ロールで自由度が高く、期待されることも希望に近かったためちょうど良かった。Pre IPOのグローバルSaaS企業の求人はそんなに多くはない。 とりあえずの基方針として、ICであり特に指示できるメンバーもいないため、各チームのニーズを受けて自分の動ける範囲で手を動かし、まずは短期的に結果が出るタスクに注力した。

    CREを一年やってみたサマリー - satoshihirose.log
  • dbt on Treasure Data with dbt-presto の動作確認をした - satoshihirose.log

    サマリー dbt が Treasure Data で動くか試してみた。 結果としては dbt-presto の修正が必要そうで現状のままでは動作しないことが確認できた。 果たして dbt-presto に Treasure Data に合うようなモードを追加するのが良いか、 dbt-athena のように別なプラグインとして提供するのが良いか。 dbt on Presto 以前の記事で少し触れたように dbt は Presto 用のプラグイン dbt-presto を用意しており、現時点では一部機能のみ使用することが可能である。 Due to the nature of Presto, not all core dbt functionality is supported. The following features of dbt are not implemented on Prest

    dbt on Treasure Data with dbt-presto の動作確認をした - satoshihirose.log
    clavier
    clavier 2021/07/28
  • Data Lineage したい - satoshihirose.log

    条件 現職で管理している現行のデータパイプラインである Treasure Workflow(managed digdag on TD)+ Presto に適用できること ウェブでメタデータのドキュメントが公開でき、社内に共有できること Data Lineage 的なデータの依存関係がわかること dbt dbt は構築したプロジェクトとその内部のクエリを元にドキュメントを自動で生成してくれる。データの依存関係のDAGを可視化してくれるようで、良さそう。dbt docs serve というドキュメントサイトをホストする機能も提供しているが、現時点では番稼働を想定していないものらしい。その代わりに dbt Cloud を使う、生成したドキュメントを S3 でホストするなどの方法を推奨している。 The dbt docs serve command is only intended for lo

    Data Lineage したい - satoshihirose.log
  • リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

    はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat

    リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
  • (翻訳) データエンジニアリングの未来 - satoshihirose.log

    訳者まえがき 原著者の Chris Riccomini の許可を得て以下の記事を翻訳・公開しました。 riccomini.name 下記より記事翻訳文です。 データエンジニアリングの未来 私は最近、近頃のデータエンジニアリングがこれまで来た道について、また、この分野の仕事の将来について考えてきました。考えのほとんどは、私たちのチームが WePay で実践していることを背景にしています。その一方、以下に述べる考えは普遍的で、共有する価値があるものと思っています。 データエンジニアリングの仕事は、組織におけるデータの移動と処理を支援することです。これには、一般的に、データパイプラインとデータウェアハウスという2つの異なるシステムが必要です。データパイプラインはデータの移動を担当し、データウェアハウスはデータの処理を担当します。これは、やや過度に単純化しています。バッチ処理とストリーム処理では

    (翻訳) データエンジニアリングの未来 - satoshihirose.log
  • 1