tsintermaxのブックマーク - はてなブックマーク

Data Contractに向けたProtocol Buffersの調査 - yasuhisa's blog

背景: データ品質を担保するにはデータソースの品質が重要データソースの品質を担保する手段としてのData Contract Data Contractの表現方法の一つとしてのProtocol Buffers Data ContractとしてProtocol Buffersを使うデータの入出力を一箇所に集約、Protocol Buffersで抑えるパターンストレージのスキーマをProtocol Buffersで抑えるパターン発展的な話題 & 読書会の案内参考文献背景: データ品質を担保するにはデータソースの品質が重要私はデータエンジニアをしており、DWHやデータマートのデータ品質について考えることが多い。BigQueryなどにデータが取り込まれた後のレイヤリングやテスト、改善に向けたデータ品質の可視化について、以前発表した。データが取り込まれた後の整理は進んでいるものの、やは

tsintermax 2024/08/14

リンク

BigQueryを補完する技術: DuckDBとDataflowでのデータ処理入門 - yasuhisa's blog

背景 & Disclaimer DuckDB 概念や代表的なユースケース使ってみる 1週間〜一ヶ月などある程度の期間、分析で使いたい場合便利なCLIツールとして使う所感参考 Dataflow 代表的なユースケース具体例参考背景 & Disclaimer BigQueryは非常に便利で、BigQueryにさえ上がってしまえばSQLで巨大なデータを簡単に相手にできますとはいえ、BigQueryに行きつくまでが大変な場合もありえます例: 個人情報を含むsensitiveなデータで、BigQueryに気軽に上げられないケース一時的であっても、相談なしにその手のデータを気軽にアップロードするのはやめてください... 数万件程度であれば手元のエクセルで開いて、問題ない行/列だけに絞る、ということもできるが、もっと量が多いデータだとそういうわけにもいかない。そもそも分析はSQLでやり

tsintermax 2024/06/19

リンク

個人的なdbtの推しポイントを書いてみる - yasuhisa's blog

dbtや同じ系統のDataformなど、ELTの特にTransf orm部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われるデータリネージの可視化ができるデータに対するテストが簡単に書けるエンジニア以外の人ともコラボレーションしやすいあたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。推しポイント:

tsintermax 2024/02/12

リンク

dbtで見やすいER図を生成する - yasuhisa's blog

背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するかどうやってER図を見やすくするかまとめ背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

tsintermax 2024/02/03

リンク

DWH改善に生かす! 入門elementary - yasuhisa's blog

前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利ですしかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります本エントリではelementaryの成果物や役に立つ実例を多めに紹介します前提: これは何? 3行まとめ背景: DWHとデータ品質 Observability / Data Observabilityについて

tsintermax 2024/01/31

リンク

dbt-osmosisを利用して、なるべくコストを抑えつつ効率的にメタデータ管理を行なう - yasuhisa's blog

3行まとめビジネスメタデータはデータ生成者にとってもデータ活用者にとっても重要しかし、カラムのメタデータを同じ説明をあちこちに書いていくのは大変... dbt-osmosisはビジネスメタデータの管理を省力化したり、自動化できる便利なツール 3行まとめ背景: メタデータの重要さとメタデータ管理の大変さ大変さ1: 多段のデータレイヤーにどうメタデータを付与していくか大変さ2: 継続的な運用をどうするか dbt-osmosisでメタデータ管理を行なう依存関係を考慮したメタデータの伝播自動化による継続的な運用基本的な使い方使ってみた感想背景: メタデータの重要さとメタデータ管理の大変さデータマネジメントにおいてメタデータの重要性は今さら説明するまでもないと思います。メタデータは以下の3種類が代表的です。 A: テクニカルメタデータ B: オペレーショナルメタデータ C: ビ

tsintermax 2023/04/08

リンク

機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術は本番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。前提考慮に入る採用基準予測精度 (コードの)メンテナンスの容易性計算オーダー学習時予測時挙動のコントロールのしやすさ/予測説明性の容易さチューニングの必要性その他まとめ前提機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

tsintermax 2016/11/21

リンク

はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

tsintermax 2016/06/28

リンク

今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog

データを眺めるのが好き収集している情報実現方法データから分かった知見(?) 今後年末なので、今年買ってよかったものに引き続き、今年やってみてよかった習慣について書いてみたいと思います。データを眺めるのが好き昔からデータを眺めるのは好きだったんですが、今年の5月くらいから自分に関するデータをとにかく収集してみました。可視化することで何か有益な視点だったり、生活の改善点が見つかるのではないか、という目的です。色んなデータを集めまくった結果、以下のようなグラフができあがります。ちょっと画像が小さいですが、毎日の歩いた歩数や体重、気温、録画した番組名、自宅マシンの負荷状況などが載っています。収集している情報上の画像ではとりあえずBlogに上げれるようなデータしか見せていないですが、収集している情報としては以下のようなものがあります。使用しているスクリプトで公開できるものはgithu

tsintermax 2015/12/22

リンク

Rの基本データ構造、よく使う関数紹介 - yasuhisa's blog

Agenda データ構造たくさんある＞＜ベクトル Rの格言いろんなベクトルの作り方規則的データの生成同じデータを繰り返すベクトルへのアクセスの方法アクセス方法にもいろいろあるまだまだあるよ、アクセス方法行列埋めていく順番すでにあるベクトルを束ねる cbind rbind 行列へのアクセス方法行列の基本演算積がやっかい積を求めたいときは「%*%」を使うべし逆行列を求めるちなみに行列式固有値配列リスト例ちなみに unlistのtips リストへのアクセスリストは結構難しい＞＜例リストの要素には名前を付けることができる Rでlistがどのように使われているかデータフレーム例データフレームを作るデータフレームに列を追加と削除データフレームに行を追加因子型 irisのデータでやってみる irisデータ層別にSepal.Lengthの長さ

tsintermax 2014/04/23

リンク

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス