『今さら人に聞けない「重回帰分析の各手法の使い分け」 』と言うブログのエントリーがあって、一般化線形モデル(GLM)の使い分け(Rの関数glmとパッケージMASS)の説明がされているのだが、理系実験室から出てきた人のせいか、色々と怪しく感じる所がある。純粋文系プログラマとして問題点を指摘してみたい。 1. 離散データだから最小二乗法が使えないわけではない 全体として、モデルの説明がおかしい。推定モデルの使い分けが良く分かってい無い気がする。問題のエントリーには、『クリック数という「カウントデータ=離散値データ」』だから『普通の線形回帰』と表現されている一般最小二乗法(OLS)は正しく推定できない可能性があるので、ポアソン回帰モデルや負の二項分布回帰モデルにしようと言っている。しかし、離散データでもプロビットのような二項/多値選択モデルであったり、切り落としのトービット・モデルで無い限りは、