あとでと統計学に関するeurisko1のブックマーク (2)

  • おっと危ない:信頼区間と予測区間を混同しちゃダメ - Take a Risk:林岳彦の研究メモ

    今回は仕事で解析をしていて「おっと危ない」と思ったことについて書いてみます。結論からいうと「信頼区間と予測区間を混同しないように注意しましょう!」という話です*1。 課題:BODの値からTOCの値を推定したい 最近ややあってBOD(生物化学的酸素要求量)の値からTOC(全有機炭素量)の値を推定してみようと思いました*2。 試しに東京都の15地点から得られている水質データを用いてRで両者の散布図を描いてみると以下のようになりました(データはこちら:BOD-TOC.txt )。相関はあるものの、バラツキもかなりあります。 BOD2TOC.data <- read.table("BOD-TOC.txt",sep=",") TOC <- BOD2TOC.data$TOC BOD <- BOD2TOC.data$BOD plot(BOD,TOC,type="p",xlim=c(0,6),ylim=c

  • なぜ無作為化なのか:『因果推論の根本問題』とその解法 - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。はてなジョシュ(バーネット)です。今回から「はてなブログ」へ引っ越しました。今後とも引きつづきよろしくお願いします。 さて。 前回までの記事では、実験データではない調査観察データを用いた因果効果の推定における注意すべきバイアスの類型について書いてきました。 ここでなぜわざわざ「実験データではない」という但し書きをつけているのかというと、適切なデザインに基づき行われた実験(もしくは介入を伴う調査)からのデータは、処理・条件の違いによる結果の差を素直に「因果効果」とみなして解釈できるので、余り細かいことを考えなくても大丈夫だからです*1。 はい。 では、そもそも、なぜそのような実験では「結果の差を素直に因果効果とみなせる」のでしょうか? 今回は、その背景となるロジックについて書いていきたいと思います。 (すみません今回もものすごく長いです。。。) まずは「因果効果」を定

    なぜ無作為化なのか:『因果推論の根本問題』とその解法 - Take a Risk:林岳彦の研究メモ
  • 1