回帰分析を用いて「●●の効果を推定する」ことに取り組んだことがある人は多いのでは無いかと思います。 回帰モデルには「調整変数」として、年齢・性別・教育歴・(医学研究の場合は)既往歴などなど様々な要因を投入して、その影響を"補正"しますよね。 今回は、これらの「調整変数」をそもそもどのように選べばいいのか、その実践的な考え方についてまとめます。 ステップワイズつかって選べばいいんでしょう? アウトカム/曝露因子と有意に関連しているものを選べばいいんでしょう? とにかくたくさん調整すればするほど良いのでしょう? 調整して推定値が大きく変わるものを使えばいいのでしょう? はいはいドメイン知識、DAGを書くんでしょう? と思った人は参考になるかもしれません。 なお、本記事は以下の論文の内容をもとに構成されています。 そもそも「調整」するとはなにか? 教科書的な正解はDAGを書くこと 調整変数選択の