[B! data] akishin999のブックマーク

データ基盤の負債を生まない技術と技術以外の話

2024.08.20 大規模データの負債解消への道のり Lunch LT の登壇資料です。

akishin999 2024/08/21

data

リンク

神戸市さん、データ利活用しすぎ……またまたやってくれました！無料で誰でも使える「統計ダッシュボード」拡充。新たに「日本の地域別将来推計人口」と「住民基本台帳人口移動報告」を公開【地図と位置情報】

akishin999 2024/05/16

リンク

RubyのPolarsでデータサイエンティスト協会の100本ノックやってみた — 1 ~ 15問

記事の趣旨本記事では、Rust製の高速データフレームであるPolarsのRuby版を利用して、データサイエンティスト協会の提供する「データサイエンス100本ノック（構造化データ加工編）」をやってみることを目的にしています。 Polarsについては、下記の公式サイトを参照してください。 Ruby版のPolarsは、polars-dfというgem名で開発されています。 Rubyを使用したデータサイエンスライブラリをばりばり開発されているankane（Andrew Kane）さんによるgemです。深層学習やデータフレーム、LightGBM、ベイズ推定など幅広い用途のRuby用データサイエンスライブラリを開発されているすごい方です。また、本記事では「データサイエンティスト協会スキル定義委員」の「データサイエンス100本ノック（構造化データ加工編）」を利用しています。実際のデータサイエンスの

akishin999 2024/03/28

ruby
data

リンク

データウェアハウスのデータモデリングを整理してみた - Qiita

概要スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。スタースキーマスタースキーマを元に整理します。スタースキーマまたは星型スキーマはデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれるスノーフレークスキーマの一種モデルファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン

akishin999 2024/03/04

data

リンク

ノーススター（北極星）指標をモニターしてるのにビジネスが成長しないのはなぜか？ - Qiita

よくスタートアップやSaaSの世界などでノーススター（北極星）指標が注目されます。自分たちのビジネスを成長させるために組織の全員が一丸となって追うべき1つの指標というものです。例えば、アクティビティの指標であるDAU（Daily Activity Users）やMAU（Monthly Active Users）であったり、またはエンゲージメントを測るためのDAU/MAU、またはそれこそ売上やMRRであったりするかもしれません。データや数値を元にビジネスを成長させようということで、こうした「ノーススター」指標を決め、ダッシュボードなどで毎週、毎月モニターし始めます。ところが、ここから誰もが話したくないことが起き始めます。たいていの組織や企業の中の人達はこの指標をだんだん見なくなる、または本気にしなくなります。実際見ている人は経験あると思うのですが、こうした指標の数値は良くなったり悪

akishin999 2024/03/02

data

リンク

「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか？」という問題提起です。そもそも、「仮説ドリブン」（仮説駆動型：hypothesis-driven）というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

akishin999 2023/12/21

リンク

法律のデータ構造と検索

デジタル庁は、法令標準 XML スキーマに準拠した、現行の法令データをe-Gov法令検索というサイト上で公開しています[1]。今回、この法令XMLをパースするPythonライブラリ ja-law-parser をつくり、法令データの全文検索をしてみました。この記事では、日本の法令とそのデータ構造、法令XMLパーサについて解説し、最後に、それらを使った法令データの全文検索システムを実装する方法をご紹介します。法令検索の実装についても、GitHubリポジトリで公開しています。この記事は、情報検索・検索技術 Advent Calendar 2023の16日目の記事です。法律と法令法律とは法律の制定と公布法律と法令の違い法律の改正法令のデータ構造 e-Govの法令データ法令標準XMLスキーマ法令番号と法令ID 題名本則と附則条・項・号編・章・節・款・目法令XMLパーサ：

akishin999 2023/12/19

法律
data

リンク

DMBOK第1章データマネジメント｜zono

要約データマネジメントはデータと情報の価値を最大化し、ライフサイクルを通じて計画・実施・監督するものです。価値の定量的評価が難しく、データ品質の管理が重要になります。また、リーダーシップとコミットメントが効果的なデータマネジメントに必要になります。課題としてデータの特異性やデータ品質、横断的な視点が挙げられ、その1つの解決策として様々なフレームワークが存在します。データマネジメントとは定義についてはDMBOKに以下のように記載されています。データマネジメントとは、データとインフォメーションという資産の価値を提供し、管理し、守り、高めるために、それらのライフサイクルを通して計画、方針、スケジュール、手順などを開発実施監督することである。 DMBOKよりデータマネジメントの失敗は、企業資本の管理に失敗することと同じでチャンスを逃すことになります。また、ITの変化とともに、データとは一

akishin999 2023/11/27

リンク

24時間365日動き続けるデータシステムの設計手法 : 「データ指向アプリケーションデザイン」実践編

「データ指向アプリケーションデザイン」をベースに、24時間365日動き続けるデータシステムを実装する際に必要となる技術や考え方を紹介します。この資料は、2023年大阪大学大学院情報科学科マルテメディア工学特別講義で使われた資料を一般用に修正して公開しています。参考：「30分でわか…

akishin999 2023/10/17

data
設計

リンク

【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog

こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。はじめにこれまでのあらすじ：運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思

akishin999 2023/10/05

data

リンク

Apache Iceberg とは何か - 流沙河鎮

はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

akishin999 2023/09/25

data

リンク

Data Engineering Study #20 "Introduction to Data Analytics with SQL" Book

Data Engineering Study #20「10年戦えるデータ分析入門」回・前半の発表資料です。

akishin999 2023/07/03

sql
data

リンク

300万テーブルのデータ流通を支えるエンジニアリング #GoogleCloud #GoogleCloudDay / 20230523

テクノロジーカンファレンス「Google Cloud Day ’23 Tour in TOKYO」の登壇資料です。詳細は当社ニュースをご参照ください。 https://kazaneya.com/5a50c1c1bb7b42f1bd9eb7b35d813ba1 --- スモールチームで 300 …

akishin999 2023/06/10

data

リンク

データオーケストレーションツールDagsterの紹介

データオーケストレーションとはデータオーケストレーションという言葉をご存知でしょうか？日本ではまだ耳慣れない言葉ですが、data orchestrationでgoogle検索すると実に3000万件以上ヒットし、世界的には十分に市民権を得ている言葉です。Databricksではデータオーケストレーションを以下のように説明しています。データオーケストレーションとはデータオーケストレーションとは、複数のストレージからサイロ化したデータを取り出し、組み合わせて整理し、分析に利用できるようにするための自動化されたプロセスです。このプロセスでは、レガシーシステム、クラウドベースのツール、データレイクといったあらゆるデータセンターが接続されます。データは標準形式に変換されるため、理解しやすく、容易に意思決定に利用できます。オーケストレーションとは、コンピュータシステム、アプリケーション、および

akishin999 2023/05/21

data
tool

リンク

ChatGPTによるデータ変換がもたらすインパクト

2023/03/23 ChatGPT選手権！エンジニアリングに組み込んでみたらこうなりました LT大会 https://findy.connpass.com/event/276736/

akishin999 2023/03/24

ai
data

リンク

データライフサイクルとトレードオフ | フューチャー技術ブログ

ソフトウェアの中身を大きく2つに分解すると、プログラムとデータに分かれます。コードコンプリートやA Philosophy of Software Designなど、評判の良いソフトウェア設計の本はいくつかありますが、それらはどれもプログラムの説明がメインでデータのライフサイクルについての説明はなかったと思います。しかし、データの表現にもいくつもの方針があって、それによるトレードオフがあるな、というのはもやもやと考えていたので、その考えをまとめて文章にしてみました。データといっても、処理中の短期間の間では変わらない、いわゆるマスタデータ的なデータです。ジャーナルというか、トランザクション的なデータはここでは触れません。この記事では、それぞれのトレードオフについて考えていきます。即値（リテラル）定数コマンドライン引数環境変数設定ファイルダウンロードコンテンツオンラインデータベ

akishin999 2023/03/17

data
設計

リンク

AWSが提唱するゼロETLとは何か？概念と登場の背景の推察 - NRIネットコムBlog

こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。データ分析とETLの現状と課題ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか？単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて

akishin999 2023/02/28

aws
data

リンク

Red Data Tools で切り開く Ruby の未来

Ruby 30周年記念イベント LT

akishin999 2023/02/26

ruby
data

リンク

次世代のデータプラットフォーム「Looker」機能概要まとめ #looker | DevelopersIO

Developers.IOをご覧の読者の皆様は「Looker(ルッカー)」というBIツール・サービスを御存知でしょうか。2012年01月に米国カリフォルニアにて設立された同名企業により開発された、データ探索とデータディスカバリー(発見)のための、次世代のデータプラットフォームです。 Looker - Business Intelligence and Big Data Analytics Software Lookerは世界各国の著名な企業・スタートアップなどで採用されており、また日本国内でも下記のようにメルカリやQuipperといった企業が採用・導入をした事で知名度が上がってきています。2019年の「Gartner Magic Quadrant」でも「Analytics and Business Intelligence Platforms」部門に掲載されています。プロダクトのリリース

akishin999 2023/02/24

data

リンク

データ分析の初心者はExcelを使い、中級者はR, Python, SAS, SPSSなどを使い、上級者は「Excel」に戻っていく「Excelに始まりExcelに終わる」

naki @naki_mk 私のツール遍歴新社会人「Excelの機能たくさん覚えて市場価値アップだ！まずはショートカットっと」 2年目「BIツール超便利じゃん…Excelとか必要なくね…ｽｸｼｮ貼ﾘ付ｹ-」 3年目「BIツールだけだと何かと不便…Python覚えるか…」 6年目「誰でも使えるように設計されてるExcelが便利すぎる…」 2022-08-19 09:58:41

akishin999 2022/09/08

data
excel

リンク

はてなブックマーク

タグ

関連タグで絞り込む (90)

dataに関するakishin999のブックマーク (204)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス