こんにちは。データサイエンスチーム tmtkです。 この記事では、外れ値が相関係数に与える影響を観察します。 以前の記事で簡単に説明したように、相関係数(ピアソンの積率相関係数)は2つの変数の間にある線形関係の強弱を測る指標です。 諸説ありますが、相関係数の絶対値がおおむね0.7以上あれば強い相関があると判断されることが多いようです。 相関係数と外れ値 相関係数は外れ値の影響を強く受けます。これを確認します。 まず、Pythonで無相関のデータを作り出します。IPythonを起動し、数値計算ライブラリnumpyによって乱数を発生させます。 import numpy as np # numpyのimport np.set_printoptions(suppress=True) # 指数表示を禁止 np.random.rand(0) # 乱数のseedを固定 x = np.random.ran
