タグ

ブックマーク / www.anlyznews.com (2)

  • 銀座で働くデータサイエンティストのモデル選択について

    『今さら人に聞けない「重回帰分析の各手法の使い分け」 』と言うブログのエントリーがあって、一般化線形モデル(GLM)の使い分け(Rの関数glmとパッケージMASS)の説明がされているのだが、理系実験室から出てきた人のせいか、色々と怪しく感じる所がある。純粋文系プログラマとして問題点を指摘してみたい。 1. 離散データだから最小二乗法が使えないわけではない 全体として、モデルの説明がおかしい。推定モデルの使い分けが良く分かってい無い気がする。問題のエントリーには、『クリック数という「カウントデータ=離散値データ」』だから『普通の線形回帰』と表現されている一般最小二乗法(OLS)は正しく推定できない可能性があるので、ポアソン回帰モデルや負の二項分布回帰モデルにしようと言っている。しかし、離散データでもプロビットのような二項/多値選択モデルであったり、切り落としのトービット・モデルで無い限りは、

    銀座で働くデータサイエンティストのモデル選択について
    oich
    oich 2013/09/24
  • ベイズ推定を知っているフリをするための知識

    最近はベイジアンが増えてきて、実用分野での利用も進んでいるようだ。話題としては知っておきたいが、世間一般には理解に混乱を生んでいるようだ。 ベイズ推定は入門レベルの統計学の教科書ではオマケ的な扱いがされており、実際に伝統的な統計手法を拡張している面が強い。そういう意味では、誤解や混乱があっても仕方が無い。 利用する必要があるのか無いのか良く分からない点も多いのだが、知らないと告白するのも気恥ずかしいかも知れない。自分ではベイズ推定で分析を行わない人が、ベイズ信者と話をあわせるために最低限知っておくべき事をまとめてみた。 1. ベイズ推定とは何か? ベイズ推定とは、ベイズの定理を応用した推定手法だ。端的に理解するためには、最尤法に事前確率を導入している事だけ覚えれば良い。これで哲学的議論を全て回避してベイズ推定を把握することができる。 下の(1)式ではπ(θ)が事前確率、π(θ|x)が事後確

    ベイズ推定を知っているフリをするための知識
  • 1