データを分析する場合は、まずグラフ要約によりデータ全体の傾向を視覚的にとらえ、その後で数値要約(平均値や最小値・最大値、標準偏差など)を行います。その時点でおかしなデータが含まれていれば十分にチェックし、分析から除外すべき場合はデータセットから取り除きます。おかしなデータにはさまざまなものが考えられますが、その代表的なものが異常値・外れ値です。これは、他のデータに対して著しく大きい(または小さい)データのことです。 たとえば、新卒で入社したばかりの社員の月給が100万円を超えていたとしたら、飛びぬけて高い給与といえます。つまり、異常値・外れ値です。 分析の場面では、異常値・外れ値、どちらの呼び方も耳にしますが、外れ値の呼称のほうが無難かもしれません。理由は、「異常」といった場合には「正常」を定義しなければならないからです。もちろん、分野によって呼称は違いますので、普段利用する言葉を使えば問