2変数の間に関係性があるかどうか調べる時に、ピアソンの相関係数を扱うことは非常に多いと思います。 しかし御存知の通り、相関係数は扱うデータのサンプルの外れ値に大きく影響を受けます。 テストの問題を解くだけなら良いのですが、実際に分析していると外れ値の処理(データクレンジング)や、正規分布の検定 をしなければなりません。 今回は、変数間の相関を分析する際の、四分位範囲(IQR)を用いた外れ値の対応について、Pythonを用いて書いていきます。 目次:相関を分析するための手順 そもそも外れ値とは? まずはサンプルデータと散布図の作成 相関係数の計算と、四分位範囲を用いたはずれ値の検出 1. そもそも外れ値とは? 外れ値とは? 外れ値とは、統計において他の値から大きく離れた値のことを言います。 (例:身長2mのバスケット選手は1万人に1人で、平均身長170cm から大きく離れているため、外れ値と