![矢野経済研究所がアクセス解析・広告効果測定ツール市場調査、2009年度は65億円の市場規模 | Web担当者Forum](https://cdn-ak-scissors.b.st-hatena.com/image/square/c73ee3e0a34a9d0ce7472850721f390cbfc0398c/height=288;version=1;width=512/https%3A%2F%2Fwebtan.impress.co.jp%2Fsites%2Fdefault%2Ffiles%2Fimages%2Fnews1200.png)
今日は、アクセス解析や統計の話を。Excelを使えばいろんなデータから相関関係を簡単に出せますが、だからといってそのデータが問題解決につながるとは限らないのです。 Excelには「CORREL」という関数があり、2つのデータ群について相関関係を簡単に出すことができます。しかし、この「相関関係」と「因果関係」を混同してしまっている例があります。統計ではごく基本的なことなのですが、基本的なことこそ大切なので、改めて解説しておきましょう。 「相関関係」とは、「ある値Aが増えた(減った)状態で、別の値Bが同様の変化を示していること」を意味します。また、ある値Aが増えた状態で別の値Bが減ることを「逆相関」といいます。 たとえば、アクセス解析データで、ある期間の訪問者数とPV数の間で相関関係を出すと、かなり高い相関性が見られるでしょう。つまり、訪問者数が増える状況では、同様にPV数も増えているのです。
この場合に、たとえば「9999」と記入した回答があったらどうしましょう。回答者は1億円以上の年収があるので、こう表現したのだと思います(1億円を超える場合に、回答者を悩ませる点でもこの自由記入は、あまり良い例とは言えませんが、それは今回置いておきましょう)。 この場合は、この質問のこの回答だけを「外れ値」として集計から除く処理を行うという判断をすることがあります。世帯年収の単純平均を算出すると、この回答が平均値をかなり押し上げてしまうからです。 年収などの場合は、その回答の分布はなだらかな山の形を形成することが多いのですが、分布から極端に離れた値にごく少数の回答が存在することがあります。これを異常値として排除するのです。科学の実験などでもこういった処理を行うことがあります。 普通の調査では、中央値や最頻値を併用するとよい全体を代表する値という指標はいくつかあります。平均値は最も代表的な指標
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く