サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
bynatures.hatenadiary.jp
先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについて" https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Datalake-Format-On-AWS_0516_v1.pdf AWS のソリューションアーキテクト、Chie Hayashida さんによる各種データフォーマット比較です。 CSV, JSON, AVRO, Parquet, ORC などのファイルフォーマットや様々なユースケースを紹介しながら、新たなデータレイク
最近仕事をしていて、データエンジニアと肩書きはいただいてますがソフトウェア開発をすることも多く、データエンジニア・ソフトウェアエンジニアの2つに違いはどの程度あるのか?ただ役割を細分化しただけなのかが気になっていました。 そんな時に目についた記事がこちら: medium.com 物理学の博士をもつ、ベルギーの様々な企業でデータエンジニアやデータサイエンティストとして働く Niels Cautaerts 氏による投稿です。2つの違いが簡潔に言語化されており、さらにアジャイル開発やテストの文脈での違いに焦点を当てて分かりやすく解説されています。 ちょっと長い記事なのですがまとめてみました。太字だけ追えばざっくり理解できるようにしたので、ぜひご覧ください。和訳要約には ChatGPT を利用しましたが、専門用語も多いので割と自分で加筆修正しています。分かりづらい箇所があればご指摘ください。 <<
今年の春〜初夏にかけて Data Vault 2.0 についての輪読会に参加しました。途中は退職・転職などでバタバタしていて参加できなかったのですが、Data Vault の概念を理解でき、dbt などの ETL ツールについての話題も多く、とても勉強になりました。色々と感想を書こうとしていたのですが新しい会社で学ぶことが多く、業務後や週末はのんびりしていることが多かったので、雨続きの三連休ですが久しぶりに個人的な勉強をまた始めています。 Data Vault ですが、ディメンショナルモデリングを置き換えるものではないと明言されています。むしろディメンショナルモデリングでデータマートを組みやすいように、前段のデータウェアハウスを管理しておくための技術やモデリング手法のようです。 輪読したのはこちらの本です: Amazon | Building a Scalable Data Warehou
DMBOK で一番読むのを楽しみにしていたのがデータモデルの章だったのですが、いざ読んでみると細かすぎるというか、求めていたものと違う感覚がありました。私がドメイン駆動設計から生成されるモデルの実用性に興味をもっていた時期なので、実践的な内容を求めているだけかもしれませんが…。DMBOK ではデータモデリング・スキームが多数紹介されていたり、データモデリング戦略を立ててモデリングしていきましょう・・・といった内容が書かれており、現職で起きている問題を解決するのには役立たなそうだと感じました。 そんな中で見つけたこのデータ総研さんの記事で合点がいきました: (EDW報告その2)データモデリングの逆襲 | 株式会社データ総研 データ構造を固めなくてもデータを格納して貯めていけるNoSQLは、Webを中心としたシンプルなビジネスで数多く採用されています。テキストも画像も音声も動画も、なんでも構造
datatech-jp Advent Calendar 2021 3日目への投稿です。 今年は datatech-jp のコミュニティの方達と話をしたり、輪読会に参加させていただくことができました。datatech-jp 自体の説明は1日目の投稿からご覧いただけます。Slack チャネルもあり、気軽にいろんなことが相談できたり、輪読会を開いたりと徐々に活発になってきていますので、ぜひご覧ください: www.yasuhisay.info 私からは、技術的横断組織にいる私が ここ2年くらいの DMBOK を中心とした社内の活動で得た知見を共有できる範囲でお話します。 所属組織について 私はサイバーエージェント社の Media Data Tech Studio という横断組織にいます。秋葉原ラボという組織は聞いたことがある方もいるかもしれませんが、2021年秋から組織名が変更されています。以下公
データマネジメントについて色々考えている時期で、今日は成熟度について。 様々なフレームワーク とあるプロジェクトでデータマネジメント成熟度を測ろう、となったのですが、成熟度を測るフレームワークにも色々あるようです。 www.cloudtimes.jp こちらの記事で紹介されているのは以下の3つです: CMMI研究所 が定めるもの(DMM) Deloitte 社が提供するもの Data Orchard 社が提供するもの 他にもウェブ検索していたら EWSolutions 社が提供するものも見つけましたが、大半はコンサルティング企業が有償提供するサービスが多いようです。 ちなみに Deloitte 社が提供するものは、アンケートに答えるだけで成熟度が測れるので面白そうです。ちょっと軸が独特な気がしますが。 Data Maturity Benchmark DMBOK の書籍の中に紹介されているの
最近、業務ではデータマネジメントの改善に取り組んでいます。 「データマネジメント」と一言にいっても、国際的な非営利団体 DAMA は DMBOK という、データマネジメント体系ガイドをまとめています。DMBOK が制定する領域では、以下の11の領域がデータマネジメントの対象とされています: DAMAホイール https://www.dama-japan.org/Introduction.html 「データセキュリティ」や「データ品質」など直感的なものもあれば、「データ統合と相互運用性」といった聞いただけではよく分からない領域、「ドキュメントとコンテンツ管理」といった、それもデータマネジメントなの?といったものも含まれています。そして円の中央に位置する「データガバナンス」が、周りの10の領域を統合することを上図では表しています。 DMBOK はいわゆる教科書的な書き方がされていて抽象的な部分
OpsWorks は AWS の1サービスで、Chef を使ったプロビジョニングを楽に行ってくれるサービスです。今のプロジェクトでは、自前の Ansible から OpsWorks へ移行しているため、社内で OpsWorks について紹介しました。 スライドの中では、実際に使ってみた所感も書いているので、このエントリーではその点について少し追記したいと思います。 [toc] 発表資料:"OpsWorks で簡単プロビジョニング" ※ 社内での紹介は、プロジェクトでの設定例やデモも交えたのですが、ここでは省いています。 AWS OpsWorks のよいところ インスタンスの状況や、レイヤに割り当たっている ELB が可視化される OpsWorks を使う事で、その VPC にどんなレイヤが存在するのか、何台立ち上がっているのかなどの情報が可視化されます。特に、レシピの実行に失敗した場合にイ
Flask(フラスク)は、「プログラミング言語Python用の、軽量なウェブアプリケーションフレームワークである。」 (Wikipedia) ということで、簡単に使うことができる Python のウェブアプリケーションフレームワークです。 インターネット上にもサンプルがたくさん公開されています。curl コマンド等で簡単に動作確認を行うこともできて、python コマンドでスクリプトを実行すると、即座に簡易ウェブサーバが LISTEN 状態となるので、localhost に対して curl コマンドを実行すれば動作確認ができます。 軽量とは言うものの、第三者提供のモジュールも多く、これを組み合わせればかなりのことは実現できそうです。ここでは REST API を実現するために調べたことをご紹介します。 「Flask の例外処理について考えてみる」も合わせてどうぞ。 Flask-RESTfu
このページを最初にブックマークしてみませんか?
『/home/by-natures/dev*』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く