The Director’s Chair: Orchestrating AI for Truly Effective Learning
はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ
# Event データモデリングとデータ基盤の構築・運用 (第14回ちゅらコラボ)CARTA HOLDINGS x ちゅらデータ 合同イベント https://churadata.connpass.com/event/254417/ ぼくのかんがえる最高のレポーティング基盤 …
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? サブスクリプション型のビジネス、またはソフトウェアの世界ではSaaSと言われたりする、顧客が製品やサービスを継続的に利用するために購読するタイプのビジネスは一般的な売り切り型のビジネスとは収益構造が異なるため、ビジネスを成長させるために見るべき指標やチャートも違ってきます。 よくあるのは、この違いを意識せずに「売り切り型」のビジネスでよく使われる指標やチャートをモニターしていたがために、ビジネスの成長のきっかけをつかめなかったり、成長していると思っていたビジネスが急に傾き始めたり、成長の見通しを社内で共有、または外部の投資家にうまく説明
従来のGoogleアナリティクスである、ユニバーサル アナリティクス(以下UA)のサポートがいよいよ2023年7月に終了することが、先日アナウンスされました(※)。昨年対比やトレンドをチェックすることを考えると、2022年内できるだけ早めに次世代のGoogleアナリティクス(以下GA4)へ移行したいWebメディア運営者も多いかと思います。新しいツールの勉強や、既存システムの改修が必要な問題ではありますが、この機会を、データ収集・可視化の設計を見直し、日々の意思決定の共通言語としてデータを使いやすくするチャンスと捉えてみてはいかがでしょうか。 ※ Google、ユニバーサルアナリティクスのサポートを2023年7月1日に終了。早めのGA4移行を推奨 このnoteでは、前半でダッシュボードによるデータの可視化にコストをかけるべき理由を整理します。後半では、2021年秋に文春オンラインのダッシュ
(Image by Mediamodifier from Pixabay) 実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも各種翻訳サービスなどを使えばサクッと読めるのではないかと思います。 で、何故そういう感想を抱いたのかというと「個人的にはもう2017年ぐらいからほぼ同じことを考えていたから」です。しかし、広告マーケティング業界(特にオンライン広告)では長年に渡り「個々の顧客にone-to-oneで訴求できることこそが最重要」という考え方が主流となってきていて、近年のパーソナライズド広告や見ようによってはレコメンデーションもその流れに沿って隆盛を誇ってきたアプローチとも言えます。そこに満を持して一石を投じる形になったのが、上記
JMDC データサイエンティストの齋藤です。 データ分析の第一歩、EDA(探索的データ分析)にどう取り組んでいますか? 予測のための機械学習の話はよく聞きますが、EDAのための機械学習はあまり目にしないと感じるので、 今回は実務における「XGBoost+SHAPによるEDA」の実践例を取り上げてみたいと思います。 題材は2021年7月にリリースした「新型コロナウイルス感染時の重症化リスクファクターに関する分析結果」です。 https://www.jmdc.co.jp/wp-content/uploads/2021/07/news20210709_2.pdf このブログの内容はテクニカル中心ですが、分析結果自体も面白いのでレポートもご覧いただけると嬉しいです。 XGBoost+SHAPでEDAする理由 分析デザインの概要 Feature Importance SHAP XGBoost+SHA
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 闇の魔術に対する防衛術 Advent Calendar 2020の三日目 はじめに データの可視化は非常に難しい。 まずデータの抽出が難しい ・データソースごとの整合性が取れているか ・取得したデータとソースデータに欠損が生じていないか ・SQL文を実行したサマリの結果が部分的に抜け落ちていないか。 その確認は時間的にも精神的にも苦痛。 しかし、苦労して抽出したデータも使い方で全くの無駄になる その例として「可視化や統計」部分に着目してお話をしようと考えた。 データの背景を知らない人には、データ可視化が歩み寄る手段になるし、伝えたい事を
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp
このウェブサイトでは、ICT(情報通信技術)に関する教材の「総務省 ICTスキル総合習得プログラム」をオープンデータとして提供します。「総務省 ICTスキル総合習得プログラム」は、各5講座から成る4つのコース([1]データ収集、[2]データ蓄積、[3]データ分析、[4]オープンデータ・ビッグデータ利活用事例)によって構成され、ICTに関する基礎知識・基礎技術を学ぶことができます。 個々人の自学自習および学校・企業・コミュニティでの授業・勉強会にて、ご活用ください。 総務省 ICTスキル総合習得プログラム このウェブサイトでは、2017年度における総務省の事業として開発された「総務省 ICTスキル総合習得プログラム」に関して説明し、成果に関するファイルを提供します。このウェブページでは事業の成果であるIアイCシーTティー(Information and Communication Techn
訳者まえがき 原著者 Maxime Beauchemin の許可を得て以下の記事を翻訳・公開しました。 medium.freecodecamp.org 原著者は、Apache Airflow や Apache Superset のクリエーターで、現在は Lyft で Data Engineer をしています。 データエンジニアの始まり(翻訳) 私は 2011 年にBIエンジニアとしてFacebookに入社しました。2013年に退職するときには、私はデータエンジニアでした。 昇進もしくは新しい役割に就いたわけではありません。そうではなく、Facebookは、私たちが行っていた仕事が伝統的なBIを超えていたことに気づいたのです。私たち自身のために作り出した役割は、まったく新しい専門分野でした。 私のチームはこの変革の最前線にいました。私たちは新しいスキル、新しいやりかた、新しいツール開発し、そ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く