ちょっと前の記事(単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース)に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変(汗)。知るは一時の恥というのをつくづく思い知りましたとさ。本当に裏先生ありがとうございました。 ということで、その復習内容の確認と同時に、あの時の裏先生のツッコミ内容をかみくだいて紹介するのも兼ねて、ここはひとつざっくり書いてみようかと思います。 項目ごとの単純集計は「単変量」解析(もっと言えば単相関)に過ぎず、多変量データ全体のことは分からない 前回用いたサンプルデータは、基本的にはa1-a7が0or1のみの二値で構成される事実上のカテゴリカルデータ*1で、cvも"Yes"or"No"のみの二値で構成されるカテゴリカルデータです。 で、二値のカテゴリカルデータだけで構成されてい
![なぜ項目ごとに単純な集計をするより、多変量解析(重回帰分析)をした方が正確な結果を返すのか - 渋谷駅前で働くデータサイエンティストのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/68f5e8ed7752253767ba3dfc2fcd5444976bff96/height=288;version=1;width=512/http%3A%2F%2Fecx.images-amazon.com%2Fimages%2FI%2F512H1E9ARDL.jpg)