ブックマーク / ill-identified.hatenablog.com (6)

  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
    Ez-style
    Ez-style 2020/10/22
    自分でなんとなく理解できても、よく分かってない人に説明するのが難しい。。。
  • 計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用) - ill-identified diary

    概要この投稿は, 2019年7月15日 に開催された第80回Tokyo.Rでの応用セッションの発表内容を加筆修正したバージョンである. ただし R の話はほとんどなかった. 近年注目を集めている機械学習に対して, 経済学の伝統的な計量経済学 (統計学) がどう影響を受けているか, また逆に機械学習がどのように従来の統計学的なアイディアを取り入れているかについて語る. カバーするトピックはかなり広範囲のため, ある程度の知識がないと難しいだろう. こちらもなるべく簡易に書くよう努力するが, とはいえ高度な話題に対してはそれなりの前提知識を要するのも事実である. 想定読者は, 機械学習か計量経済学の基的なトピックを知っている (例えばいずれかの標準的な教科書を読んで内容をある程度理解している) 人間である. ただし参考文献リストを多く挙げているので, それらを地道にたどればわからないこともな

    計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用) - ill-identified diary
  • [R] 予測モデルを作るには formula を活用せよ - ill-identified diary

    概要 formula オブジェクトは変数変換や交互作用項など, 多彩な表現ができる. xgboost や glmnet では model.matrix() を併用することで formula を利用できる. 統計モデリング/機械学習で予測モデルを構築するとき, 予測性能の向上のため, しばしば変数を入れ替えたり, 変換したりといった推敲が必要となる. R ではこういうときに formula オブジェクトを使うと, いちいちデータフレームに変換後の数値を追加したり書き換えたりする必要がなくなる. glmnet や xgboost など, formula が直接使えないものでも model.matrix() 等を併用すれば可能である*1. formula オブジェクトを解説した記事を探すと, かなり前から存在する. 例えば以下の記事. m884.hateblo.jp なお, 上記はタイトルが「f

    [R] 予測モデルを作るには formula を活用せよ - ill-identified diary
  • [計量経済学] [機械学習] Generalized Random Forest (GRF) について - ill-identified diary

    概要 予備知識のセットアップ 目的は因果推論 一般化モーメント法 (GMM) カーネル回帰 ランダムフォレスト 題 参考文献 概要Athey, Tibshirani, & Wager (2016, Generalized Random Forests) で提案されている Generalized Random Forest (GRF) について解説してみる. [1610.01271] Generalized Random Forests 2019/7/4 追記: この論文は Annals of Statistics にアクセプトされたようだ. projecteuclid.org 計量経済学機械学習の両方の文脈を追う必要が出てくるので, 機械学習を学んできた人, (計量) 経済学を学んできた人, それぞれに対して伝わりやすいように説明を試みる. 先日の Tokyo R #71 で以下のよう

    [計量経済学] [機械学習] Generalized Random Forest (GRF) について - ill-identified diary
  • [python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary

    概要 モデル プログラム 用いるデータ 結果 まとめ (暫定) 参考文献 概要2017/2/26 追記: 続編で適切なプログラムを書きました。この記事の「プログラム」のセクションは無視してください。 ill-identified.hatenablog.com 小売業の分析に RFM 分析というものが使われる. ここでは 阿部 (2011) で提案された, RFM 分析と 階層ベイズ法を組み合わせた新しい方法を python 3.4 と stan 2.9 で実装し, 実際の購買データを使って推定してみた. そろそろ RFM 分析について何か書こうかと思った矢先, abrahamcow.hatenablog.com という記事を書かれてしまったが (こちらは RF 分析だが, RFM と質的にあまり違いがない.), MCMC を使う方法は使われてなかったので続きを横取りしてみた*1. pyt

    [python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary
  • [GMM] 一般化モーメント法と操作変数 - ill-identified diary

    概要 今回は GMM (一般化積率法, 一般化モーメント法) について, 操作変数法との関連に重点して話す. そもそも GMM とはなにか. GMM と操作変数法 (2段階最小二乗法) との関係 操作変数を使った推定法のバリエーション 職場の統計推論に詳しい人に「GMM って知ってます?」と話題を振ったら「GLM?」と訊き返された. どうも GMM は経済学 (と数理ファイナンス?) 方面でしか使われないらしい. その場では GMM の簡潔な説明を披露できなかったので, ここで説明をまとめておく. GMM の特徴として, 操作変数を使った推定方法を内包しているという点がある. よって, 2段階最小二乗法や構造方程式モデリングとも関連する手法であると言える. また, GMMは使われてなさそうだが, 臨床研究の分野でも操作変数法が認知されているようだ. 例として, Rで学ぶ観察データでの因果推

    [GMM] 一般化モーメント法と操作変数 - ill-identified diary
  • 1