タグ

ブックマーク / fisproject.jp (7)

  • 【bnlearn】R でベイジアンネットワーク入門 |

    今回はベイジアンネットワークについて調べてみました。 グラフィカルモデル ベイジアンネットワーク ベイジアンネットワークの構造学習 ベイジアンネットワークのパラメータ学習 R でベイジアンネットワーク 1. グラフィカルモデル グラフィカルモデルは確率モデルにグラフ構造を与える。グラフィカルモデルには大きく以下の2種類がある。 ベイジアンネットワーク: 確率的な因果関係をモデル化。有向非巡回グラフで表現。 マルコフ確率場: 確率的な相互の依存関係をモデル化。無向グラフで表現。 ベイジアンネットワーク (Bayesian Network) は因果関係、データの生成過程、階層ベイズモデルの表現として用いられ, 具体的な応用分野はゲノム解析や消費者行動のモデリング, レコメンデーションなど多岐に渡る。簡単な例として, 血液の遺伝子型と血液型の関係が挙げられる。血液型 X は遺伝子型 Z によって

  • 【R】傾向スコアマッチングによる因果推論の基礎 |

    傾向スコアマッチングによる因果推論について調べたので備忘録を残しておきます。 研究デザイン ルービンの因果モデル 無作為割り当て可能な場合の因果効果 傾向スコア 傾向スコアマッチング IPWE 研究デザイン 参考書籍の『調査観察データの統計科学―因果推論・選択バイアス・データ融合』では研究デザインを大きく2つに分類・定義している。 実験研究 (experimental study) : 原因となる変数を研究者が操作し, 結果となる変数がどのように変化するかを調査 観察研究 (observational study) : 調査観察研究/相関研究。無作為割り当てを伴わない研究 相関分析, 連関分析が観察研究であるのに対して, 因果分析では実験研究であることが望ましい。[1] 原因となる変数を直接操作できる工学分野と異なり, 社会学や疫学では倫理的な理由などにより直接操作できなかったり無作為割り

    mahler-5
    mahler-5 2019/05/13
  • 【MCMC】Stan で状態空間モデリング |

    前回の {dlm} を用いた状態空間モデルを Stan でも試してみます。 今回も備忘録になります。環境は macOS 10.12, R 3.3.1, rstan 2.16.2 です。 はじめに 前回も使った架空の日次PVデータに曜日 (0-6), 広告費, イベント (長期休暇) を表す変数を追加する。 広告費は pv 増加要因, 長期休暇は pv 減少要因の想定とする。 > head(df) X date pv week ad vacation 1 1 2016/9/1 490 0 0 0 2 2 2016/9/2 450 1 0 0 3 3 2016/9/3 176 2 0 0 4 4 2016/9/4 158 3 0 0 5 5 2016/9/5 440 4 0 0 6 6 2016/9/6 546 5 0 0 最初に前回の季節要素のあるトレンドモデルに似たモデルを作り, 続いて広

  • 【R】差分の差分法 |

    差分の差分法 (Difference-in-differences, DID, DD) を R で試してみます。 パネルデータ 差分の差分法 並行トレンド Rで差分の差分法 パネルデータ データセットの性質を時間や空間の軸で捉えた場合, 以下に分類できる。 時系列データ (Time series data): 1つの項目について時間の経過と共に集めたデータ (時間) クロスセクションデータ(Cross section data): ある時点において各地点, グループなど複数の項目を集めたデータ, 横断面データ。 (空間) パネルデータ (Panel data): 時系列的性質を持ったクロスセクションデータ。 (時間 x 空間) DIDではパネルデータを前提としている。計量経済学ではパネルデータと呼ばれるが, 臨床や公衆衛生などの分野では同じような概念を 経時データ [1] と呼んでいるよう

    mahler-5
    mahler-5 2017/11/01
  • 【Stan】Rで iPhone から取得した歩数データ分析 – FiS Project

    昨年 iPhone6を購入してから全く意識してなかったのですが, 最近になって iOSが歩数をカウントしていたことに気づいたのでデータを取り出して分析してみました。データを iTunes にバックアップする場合, 2015/11時点だと「バックアップを暗号化」しないとヘルスケアデータはバックアップされないので注意が必要です。例えば, 暗号化せずにバックアップし復元で同期した場合に過去のヘルスケアデータは消失してしまいます。 iPhoneから歩数データの取得 QS Access というiOSアプリから HealthKit APIでアクセスできる歩数データを csvで取得できた。iPhone6を購入した日の 11-Dec-2014 から 01-Nov-2015 までの 1h単位の歩数データがある。 まずは, 時間帯別の歩数を見てみる。平日は通勤のために最寄り駅まで歩いており, この時間帯の歩数

  • 【MCMC】OSX で RStan の導入と簡単な例題 – FiS Project

    MCMC (Markov chain Monte Carlo methods)については, 詳しい情報が書籍 [1]や Webに溢れていますので, そちらを参照ください。 MCMCは事後分布からのランダムサンプリングを得るための道具ですが, パラメータ推定にも使うことができます。 ベイズ統計では, 普通の統計のようにパラメータをただひとつの真の値が存在するとは考えずに確率変数とします。 単純にベイズ統計によってパラメータを推定するには, 多変量の事後分布の期待値や周辺分布の計算, 多次元積分が必要になってしまいますが, MCMCはこれを現実的に行うための計算手法に関する1990年代に生まれたイノベーションです。 Stanは, C++で実装された確率的プログラミング言語です。DSLとも呼べるかもしれません。注目はMCMCサンプラーの中でも, Hamiltonian Monte Carloを

  • 【MLlib / PySpark】OSX で Apache Spark を使ってみる – FiS Project

    “Learning Spark”読書会#1 に参加しました。 今回は Apache Spark インストールから MLlib の Statistics, LinearRegressionWithSGD を使ってみるまでのメモです。 Apache Spark インストール 環境は OSX 10.10.2 です。 $ curl -O https://www.apache.org/dyn/closer.cgi/spark/spark-1.2.1/spark-1.2.1-bin-hadoop2.4.tgz $ tar xzf spark-1.2.1-bin-hadoop2.4.tgz $ ln -s ~/path/to/your/spark-1.2.1-bin-hadoop2.4 /usr/local/share/spark $ PATH=/usr/local/share/spark/bin:$P

  • 1