タグ

model*に関するsh19910711のブックマーク (80)

  • 深層自己符号化器+混合ガウスモデルによる教師なし異常検知

    [DL輪読会]Understanding Black-box Predictions via Influence Functions

    深層自己符号化器+混合ガウスモデルによる教師なし異常検知
    sh19910711
    sh19910711 2024/05/28
    "DAGMM: 深層自己符号化器によって次元削減 + 再構築エラーをconcatして低次元の特徴を得て ~ / 異常検知の段階では推定密度からあるサンプルに対する確率密度を計算 + 対数をとって-1倍してエネルギーと呼ぶ" 2018
  • 傾向スコア解析とUplift Modelling

    実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)Ayako_Hasegawa

    傾向スコア解析とUplift Modelling
    sh19910711
    sh19910711 2024/05/27
    "Uplift Modelling: 処置群と対照群の両方を使って介入による行動変化をモデル化 + 実験可能なデータを用いて介入効果を最大にするようなグループ分け / どちらも介入による効果を扱うが目的と扱うデータは大きく異なる" 2012
  • データから因果関係をどう導く?:統計的因果推論の基本、「反事実モデル」をゼロから - Unboundedly

    データに基づく因果推論がどのように行われるのか、詳しく説明していきます。因果の定義、因果推論に必要な条件、RCTの意義などいろいろまとめていたら、例のごとくすごいボリュームになってしまいました。なお、記事で使われる用語は、「疫学」の因果推論で使われているものが基です。同じコンセプトでも分野によって呼び方が違うので、その点はご了承ください。 まずは「因果効果」の定義から データから因果効果を求めるための前提条件 前提①:(Mean) Exchangeability 定義 交絡との関係性 ランダム化という魔法 観察データでの因果推論を可能にするConditional Exchangeability 前提②:Consistency 前提③:Positivity 前提条件のもと、データから平均因果効果を導く Exchangeabilityが成立しているとき(例:ランダム化比較試験) Condi

    データから因果関係をどう導く?:統計的因果推論の基本、「反事実モデル」をゼロから - Unboundedly
    sh19910711
    sh19910711 2024/05/26
    "ランダム化: サンプルサイズが十分に大きい + 人数が少ないとうまくいかない / 現実の世界では、割付された介入に従わない人が少なからずいます + めんどくさがって薬をきちんと飲まない人がいる" 2018
  • まだ生態学に本格導入されていない統計的因果推論手法の紹介:傾向スコア、回帰分断デザイン、操作変数法を中心に

    sh19910711
    sh19910711 2024/05/24
    "統計的因果推論: 比較したい集団間の背景条件を揃える + 2値の背景要因がm個あるとき、2^m個の層を考える必要がある > 各層が細切れになりすぎ + サンプルサイズが追いつかない / 傾向スコア: 背景を一次元に縮約" 2022
  • 展開型項目反応理論をStanで推定する | Sunny side up!

    Stanの記事ばっかりですみません。Stan好きなんです。 さて、最近研究で項目反応理論を使っているので、そのあたりのモデルばっかりやってるんですが、今回はあまり知られていない展開型項目反応理論について紹介します。 累積型と展開型 項目反応理論はこちらの記事で少し触れているので、そっちを見てもらえればいいのですが、学力を推定するための統計モデルです。テストにおける正解・不正解という2値の反応に対して、潜在的な変数である学力が影響すると考えます。例えば下の図のように、学力が高くなると正答率が高くなる、という関係をロジスティックカーブで表現したりします。 項目反応理論では一般に、潜在変数である学力が高くなるほど、問題への正答率が高くなると考えます。つまり、項目反応関数は単調増加であると仮定するわけです。 学力と正答率の関係に単調増加を仮定するのは自然だと思うのですが、好き―嫌いのような評価だっ

    sh19910711
    sh19910711 2024/05/24
    "項目反応関数: 単調増加になるタイプのものを「累積型」、ピークをもつものを「展開型(Unfolding)」と呼び / 回答者の好みの位置と対象の位置の距離に比例して反応しやすくなるようなタイプは展開型" 2017
  • 拡散モデルのサンプリング性能の良さを体感してみる - VisasQ Dev Blog

    はじめに 検索チームの tumuzu です。 画像生成などの技術的進歩は凄まじいですね。簡単なプロンプトから綺麗で多様なデータが生成されていて驚きっぱなしです。そこで拡散モデルの理論的なところが気になったので勉強して記事にしてみました。 この記事では拡散モデルから生成されたデータの質の高さの大きな要因であるサンプリング性能について見ていきます。拡散モデルのサンプリング性能の良さを体感するために、一般的なサンプリング法での問題点を確認しそれが拡散モデルと同等のモデルでは解決できていることを簡単な2次元データを使って見ていきます。 ちなみに『拡散モデル データ生成技術の数理』という書籍を参考にしてます。わかりやすくてとてもいいでした。日語で書かれた詳しい説明が見たい方はおすすめです。 一部環境ではてなブログの数式が崩れて表示されるようです。 数式を右クリックし、Common HTML を選

    拡散モデルのサンプリング性能の良さを体感してみる - VisasQ Dev Blog
    sh19910711
    sh19910711 2024/05/23
    "真の分布や確率はわからないが、尤度関数なら学習できることがあり + 代表的なMCMC法であるメトロポリス・ヘイスティングス法を使ってサンプリングできます / 複数のノイズの強さを用いてスコアを学習"
  • 政治学と因果推論 - sunaharayのブログ

    大阪大学の松林哲也先生から,『政治学と因果推論』を頂きました。どうもありがとうございます。因果推論の方法は経済学を中心に,社会科学で共有できる方法として広がっています。そんな中で「政治学と因果推論」と言うと,政治学でも因果推論の方法を使わないとダメなんだといったような極端な議論に傾いてしまうこともありますが,政治学の中で早くから因果推論の研究に取り組んでこられた松林さんが書かれた著作だけあって,その意義や方法を解説ところが素晴らしいのはもちろんですが,その限界や社会における役割についても触れられているのもよかったと思います。最後のところで僕のもご紹介頂いて非常にうれしく感じました。 書を頂いて,あまり何も考えずに頭から読み始めて,因果効果の定義と測定,自己選択の話とそれへの対応と流れていくわけですが,4章で無作為化実験の話が来て,5章で降雨量と投票率の話が続きます。5章は「自然実験」と

    政治学と因果推論 - sunaharayのブログ
    sh19910711
    sh19910711 2024/05/22
    "4章で無作為化実験の話が来て,5章で降雨量と投票率の話 / 降雨量と投票率の話はよく操作変数のときに使われ + 強い外生性を持つ偶然の割り当ての話,という位置づけ / 降雨量の話はきちんと7章で回収" 2022
  • 内生性を考慮しないMMMが破滅的な意思決定につながる一例をお見せします - Qiita

    はじめに こんにちは、事業会社で働いているデータサイエンティストです: 今回の記事では、ディリクレ過程を含めた、新しいマーケティングミックスモデルを提案します。この新しいモデルをアメリカのマクロ経済データに応用し、各変数が失業率にどのように寄与するかを可視化します。 しかし、内生性を考慮しない結果、経済理論と常識の予想とは逆の値になっている係数があり、連邦準備制度理事会(FRB、アメリカの中央銀行に相当)がこのようなモデルで意思決定すると、とんでもないことになることを示します。 最後に、内生性の正体を少し教科書的な説明とは違う視点から説明し、データサイエンティストのあなたが内生性の問題をどこまで真剣に考える必要があるのかについて話します。 (先に言っておくと、内生性の正体は理不尽がないことだと思います) ではまずはモデルの話に入ります! モデルの考え方 このモデルは、独立変数の過去効果の加

    内生性を考慮しないMMMが破滅的な意思決定につながる一例をお見せします - Qiita
    sh19910711
    sh19910711 2024/05/22
    "因果推論: 説明変数の変な理不尽の存在を前提 / 内生性: 上げようと思えば上げられるし下げようと思えば下げられる / 実際の企業内のデータはそんなに内生性まみれではなく説明変数にある程度の外生的な変動が担保"
  • 傾向スコアを利用した施策効果推定 - Qiita

    はじめに 統計的因果推論(以下、因果推論)は、マーケティングや医療分野において、施策や治療の効果をより正確に推定するためのフレームワークです。特に、 因果推論の使い時 傾向スコアによる逆確率重み付け法による施策効果推定方法 について簡単にまとめます。 最近は、因果推論に関する非常にわかりやすい入門書(効果検証入門~正しい比較のための因果推論/計量経済学の基礎)が出たので、因果推論も市民権を得てきた感じがします。 因果推論の使い時 因果推論の使い時は、ABテストはできないが、介入(マーケティング施策や治療)の効果をより正確に見積もりたいときです。 ABテスト(ランダム化比較試験(RCT: Randomized Controlled Trial)とも呼ぶ)は、対象者をランダムに2つのグループに割り振り、一方のグループには介入を実施し、もう一方のグループには介入を実施せず、両グループの結果を比較

    傾向スコアを利用した施策効果推定 - Qiita
    sh19910711
    sh19910711 2024/05/22
    "ABテストはできないが、介入(マーケティング施策や治療)の効果をより正確に見積もりたい / 傾向スコア: 「対象者 𝑖 の背景情報がこんな感じなので、対象者 𝑖 が処置群へ属する確率はこのくらい」という量" 2020
  • Stanでネットワークメタ分析(固定効果モデル) - Computational Clinical Psychology Lab

    はじめに この記事は,Stan Advent Calendar 2018の15日目の記事です。 ネットワークメタ分析は,3つ以上の治療の比較が可能なメタ分析です。これまでよく行われていたメタ分析(一対比較のメタ分析)は,2つの治療間の直接比較の結果を統合するものでした(一対比較のベイジアンメタ分析については,こちらを参照ください)。一方,ネットワークメタ分析では,3つ以上の治療について,直接的な比較だけでなく,間接的な比較(別の2つ以上の治療薬の効果から,検討されていない2つの治療薬間の差を推定する)も行って,治療効果の統合をします。ネットワークメタ分析の利点としては,以下の3点があります。 間接比較ができる 間接と直接比較を統合し,より精度を高められる 複数の治療が比較でき,効果のランキングが作れる ネットワークメタ分析を学ぶ場合,『Network Meta-Analysis for D

    Stanでネットワークメタ分析(固定効果モデル) - Computational Clinical Psychology Lab
    sh19910711
    sh19910711 2024/05/22
    "ネットワークメタ分析: リファレンスに対する相対効果を推定することで,最終的にランキングなどを作ることができます / 同質性,類似性,一貫性などの前提があり + その前提を確認する必要" 2018
  • 状態空間モデル - HELLO CYBERNETICS

    今回は状態空間モデルというものを紹介します。 状態空間モデルは統計学や信号処理、制御工学ではお馴染みのモデルで、観測されたデータからモデルの内部の状態を推定することを可能とするものです。代表的なものに、制御や信号処理の分野ではカルマンフィルタがあり、機械学習の分野では隠れマルコフモデルがあります。基的に扱う対象は時系列データです。 カルマンフィルタは観測が不可能な状態を、観測可能なデータから推測することで、制御対象を適切に制御するための情報を獲得することに用いられています。また隠れマルコフモデルは、観測された音の信号から、それがどんな言葉であったのかを状態量として推定することに用いられています。 状態空間モデル 状態空間モデルの例:線形ガウス状態空間モデル 線形ガウス状態空間モデルと線形回帰 状態空間モデルでの推定 カルマンフィルタ カルマンスムーザー 隠れマルコフモデル 粒子フィルタ

    sh19910711
    sh19910711 2024/05/21
    "状態空間モデル: 制御や信号処理の分野ではカルマンフィルタ + 機械学習の分野では隠れマルコフモデル / カルマンフィルタ: 観測が不可能な状態を観測可能なデータから推測" 2016
  • 「情報のプール」の観点で捉える階層モデル - Qiita

    慶應義塾大学・株式会社Nospareの菅澤です. 今回は「情報のプール」という観点から階層モデルの解釈について紹介します. 階層モデルはパラメータに異質性 (個体差や地域差) があるときに便利なモデルの枠組みとして知られています.記事では,なぜ階層モデルが異質な(グループごとに異なる)パラメータを表現するのに便利なのかについて解説をしていきます. 情報のプール: 古典的な2標の例 まず,基礎的な統計学の教科書でもよく出てくる2標問題について考えてみます. X_{11},\ldots,X_{1n_1}\sim N(\theta_1, \sigma^2), \ \ \ X_{21},\ldots,X_{2n_2}\sim N(\theta_2, \sigma^2) 簡単のため,互いの分散は共通としておきます.$\theta_1$および$\theta_2$を推定するにあたり,以下の2つのシ

    「情報のプール」の観点で捉える階層モデル - Qiita
    sh19910711
    sh19910711 2024/05/21
    "階層モデル: パラメータに異質性 (個体差や地域差) があるときに便利 / 類似性に注目し,互いのグループの情報をプールすることで推定精度を向上 / 共通の分布(モデル)を仮定 + 推定という形で全データの情報をプール"
  • Vector Auto-Regressive Bayesian Dynamic Model (VAR-BDM) による情動ダイナミクスの解析 - Qiita

    Vector Auto-Regressive Bayesian Dynamic Model (VAR-BDM) による情動ダイナミクスの解析RRStan この記事はStan Advent Calender 2017_12月18日の記事として作成した資料です。Krone et al. (in press) によるA multivariate statistical model for emotion dynamics の内容を紹介することで、Rstanを用いた情動ダイナミクスのモデリングについて解説させていただきます。より詳しい内容に関しては当該論文を適宜ご参照ください。 資料の目的は、Stanを用いた情動の時系列データの解析に関する理解となります。 動作環境:Windows, R3.4.2, rstan 2.16.2 情動とは何か。いろいろな議論はありますが、今回は情動を"特定のEven

    Vector Auto-Regressive Bayesian Dynamic Model (VAR-BDM) による情動ダイナミクスの解析 - Qiita
    sh19910711
    sh19910711 2024/05/21
    "VAR: 二種類の情動時系列データ (幸福、不安) + ある時点tでの幸福がさらに過去の時点 (t-1) の不安によっても予測されるというモデル / VAR-BDM: VARモデルをベイズ推定による状態空間モデルとして拡張" 2017
  • 状態空間モデル - R dlm (1) - 東京に棲む日々

    状態空間モデル(正確には、時系列モデルの状態空間表現)の学習メモ。Rのdlmパッケージを使う。 参考書は ”和合 2013”。 Rによるベイジアン動的線形モデル (統計ライブラリー) 作者: G.ペトリス,S.ペトローネ,P.カンパニョーリ,和合肇,萩原淳一郎 出版社/メーカー: 朝倉書店 発売日: 2013/05/08 メディア: 単行 この商品を含むブログを見る 単純なモデル(ローカルレベルモデル)を状態空間表現し、カルマンフィルタを実行してみる。 動的線形モデル(Dynamic Linear Model) / 線形ガウス状態空間モデル t=0,        θ[0]~N(m[0], C[0]) t>0,        Y[t] = F[t] θ[t] + v[t],  v[t]~N(0, V[t])                   観測値 θ[t] = G[t]θ[t-1]

    状態空間モデル - R dlm (1) - 東京に棲む日々
    sh19910711
    sh19910711 2024/05/21
    "カルマンフィルタ: Y[1:t]が与えられたときのθ[t]のフィルタリング分布の推定 / ローカルレベルモデル: 状態の事前分布N(m[0], C[0])に関する情報が不確かな場合、C[0]を大きく仮定" 2014
  • 入門 統計的因果推論 | MoT Lab (GO Inc. Engineering Blog)

    AI技術開発部分析グループマネージャーの島田です。分析グループは、タクシーアプリ「GO」におけるデータドリブンなビジネス意思決定を行うために、様々なユーザ分析、乗務員分析を行っています。記事では、分析グループ内で開催した統計的因果推論の勉強会について紹介したいと思います。 勉強会のモチベーション「データドリブンなビジネス意思決定」という文脈においては、機械学習モデルの精度を向上させる能力はあまり重要ではありません。どちらかといえば、物事をどうモデリングすべきか不明なケースで、状況を整理して課題を明確にし、適切に定式化したり、データ分析に落とし込む能力が重要で、その一助となるであろう「統計的因果推論」をチームのスキルとして身につけようということで勉強会を開始しました。つぎのような場面で統計的因果推論が活躍してくれることを期待しています。 A/Bテストでは効果なしとなったが、あるサブグループ

    入門 統計的因果推論 | MoT Lab (GO Inc. Engineering Blog)
    sh19910711
    sh19910711 2024/05/13
    "Introduction to Causal Inference: カナダのモントリオール大学で設立されたAI研究所であるMilaで開講されたコースで、講義資料やテキストブックが公開されているだけではなく、講義動画はYouTubeで公開" 2021
  • 「回帰分析から分かること」と「変数選択」

    10/23にp.11をアップデート

    「回帰分析から分かること」と「変数選択」
    sh19910711
    sh19910711 2024/05/10
    "仮定としての誤差と、分析結果として確認できる残差が違うことは注意 / DAGはコミュニケーションツール / 自分の考える因果構造を伝えたり、なぜバイアスが生じるのか説明するのに有用" 2021
  • SHAPで因果関係を説明できる?

    2023年6月19日に社内で発表したLT資料です. SHAPでありがちなミスリーディングや,特徴量が予測に与える影響(因果効果)を推定できるケースについて紹介しました. 資料内で出てくるリンクは以下です(参照日: 2023年6月13日) https://arxiv.org/abs/2011.01625 https://christophm.github.io/interpretable-ml-book/shapley.html https://christophm.github.io/interpretable-ml-book/shap.html https://econml.azurewebsites.net/ https://qiita.com/s1ok69oo/items/0bf92b84e565789a2191 https://shap.readthedocs.io/en/late

    SHAPで因果関係を説明できる?
    sh19910711
    sh19910711 2024/05/09
    "SHAP値をそのまま因果効果として解釈すると交絡や未観測要因の影響によりミスリーディング / 特徴量間の独立性: 強い無視可能性を満たす + 交絡がすべて観察されているケース" 2023
  • ベイズ統計学入門 〜頻度主義からベイズ主義へ〜

    connpassで開催した勉強会『ベイズ統計学入門 〜頻度主義からベイズ主義へ〜』の内容スライドです。 統計学は、「データに潜む規則や構造を抽出し、現象の理解や未知の現象に対する予測を行う」ための学問です。 実験や社会調査の解析だけではなく、ビッグデータ分析AI開発でも統計学は不可欠であり、現代人にとって必須の学問と言っても過言ではないでしょう。 一方で、その背後には単なる数学的論理には収まらない様々な哲学的問題が横たわっています。 そんな統計学の歴史にあって、最大にして今なお継続中の議論が、ベイズ主義vs頻度主義についてでしょう。 統計学が台頭してきた19世紀から20世紀には、頻度主義が主流でしたが、21世紀になった今やベイズ主義こそが統計学の主流になりつつあります。 ベイズ推論は、自動運転から迷惑メールフィルタリング、画像復元やノイズキャンセリングなど、様々な分野に爆発的に応用されて

    ベイズ統計学入門 〜頻度主義からベイズ主義へ〜
    sh19910711
    sh19910711 2024/05/09
    "頻度主義とベイズ主義: 推測という行為の不確実性をどこに閉じ込めるのかが異なる / ベイズ主義では推測しようとしているパラメータそのものに不確実性を持たせる / 仮説・命題がどの程度正しそうかを確率で表す" 2022
  • データサイエンスを記述と予測と因果推論に分類する

    A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks を読んだまとめです。 モチベーション 業務で予測モデルの構築や、予測モデルを用いる機能の検討を行うことが多いのですが、当に必要なのは予測ではないと強く感じています。実際、予測モデルを適用したい業務については次の状態です。 現状で業務の中で予測を行っていない 予測を行いたい理由を聞くと、予測結果がどのような特徴に左右されるのか知りたいという 同様にヒアリングすると、予測結果を高めるためにはどのような介入を行えばよいか知りたいという この状態でも予測モデルを作成することはできますが、予測結果を業務に組み込むことは著しく困難です。現在の業務フローが予測結果に基づくものでないため、予測結果を提供しても既存の業務フローでは用いら

    データサイエンスを記述と予測と因果推論に分類する
    sh19910711
    sh19910711 2024/05/08
    "因果推論: 良いデータ・良いアルゴリズム・専門知識 + ある変化を起こすことによる効果をシミュレーションする / 専門家の因果関係に関する知識を再現できていることが重要" 2021
  • パッケージを使わないで、一般化線形混合モデルのMCMCアルゴリズムを1から作る. - Data Science by R and Python

    こんにちは. 金曜日の夜になり、激しめの睡魔に襲われております. 先日のこちらの記事で公開したスライドの後半にあるシミュレーションで、地域差を考慮したPoisson - Normalモデルを構築しているのですが、そのコードを載せておきます。tomoshige-n.hatenablog.com MCMCを自分で設計 最近だと、MCMCはStanだったり、BUGSだったり、色々と便利なツールもできてきていて、パッケージを用いて推定している人も多いみたいです。が、僕は、なんというか、中で何してるのかが気になって、提案分布の設計とか実際のところ、どうしてるのかとか、ステップ幅をどうやって決めてるのかとか、自動的にやられてしまうのはどうも気持ち悪いので、自分で書いてみましょうということになってしまいがちなんですよね。 ということで、ポアソン分布で、個体差を考慮できるようなMCMCのアルゴリズムを書い

    パッケージを使わないで、一般化線形混合モデルのMCMCアルゴリズムを1から作る. - Data Science by R and Python
    sh19910711
    sh19910711 2024/05/07
    "意外に自分でMCMCを書くのは楽しかった / 計算を速くさせるための工夫とか / 特に、積はlogとれば和の計算というのは、数値計算では有効だなーと思いました / ガンマ関数、階乗の計算はさせるべきじゃありません" 2015