タグ

データ分析に関するtjmtmmnkのブックマーク (3)

  • データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0

    この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。 めっちゃ専門的な内容になってしまいました。ごめんなさい。 某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。 もくじ もくじ はじめに 「データ基盤の3分類」と「(一般的な)技術要素」 1.データレイク(Data Lake) 2.データウェアハウス(Data Warehouse) 3.データマート(Data Mart) 私が考えるデータ基盤の定義 私が考える「あるべき構成」 技術要素を分けるのはアンチパターン 進化的データモデリングを容易にしよう チームとアーキテクチャを選ぶ まとめ 参考 余談 追記 はじめに データ基盤と世間一般で言われるシステムには分類

    データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0
  • さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう

    tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを

    さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう
  • 30分でわかる機械学習用語「次元削減(Dimensionality Reduction)」 - Qiita

    機械学習用語としての「次元削減(Dimensionality Reduction)」について、「次元削減という言葉を初めて聞いた」という程度の方を対象に、次元削減の目的・方法から、どんな方法で実現するのかという話までを説明する記事です。 なお、いろいろと日語訳にブレがあるようですが、「次元削減」で通します。 記事は、courseraで提供されているAndrew Ng氏の機械学習講義の内容を参考に、「次元削減」に関して説明するものです。 また、記事では、「次元削減」の手法として、主成分分析(PCA:Principal Component Analysis)を取り上げます。 次元削減とは? 「次元削減」とは、文字通り、データの次元数を減らすことです。 ここでいう「次元数」は、データセットのフィーチャーの数と言い換えることができます。 以下に次元削減の例を示します。 上図上は身長と体重の関

    30分でわかる機械学習用語「次元削減(Dimensionality Reduction)」 - Qiita
  • 1