タグ

ブックマーク / c4s.blog72.fc2.com (2)

  • 統計解析道具箱 異常値・外れ値の考え方

    データを分析する場合は、まずグラフ要約によりデータ全体の傾向を視覚的にとらえ、その後で数値要約(平均値や最小値・最大値、標準偏差など)を行います。その時点でおかしなデータが含まれていれば十分にチェックし、分析から除外すべき場合はデータセットから取り除きます。おかしなデータにはさまざまなものが考えられますが、その代表的なものが異常値・外れ値です。これは、他のデータに対して著しく大きい(または小さい)データのことです。 たとえば、新卒で入社したばかりの社員の月給が100万円を超えていたとしたら、飛びぬけて高い給与といえます。つまり、異常値・外れ値です。 分析の場面では、異常値・外れ値、どちらの呼び方も耳にしますが、外れ値の呼称のほうが無難かもしれません。理由は、「異常」といった場合には「正常」を定義しなければならないからです。もちろん、分野によって呼称は違いますので、普段利用する言葉を使えば問

  • 統計解析道具箱

    ロジスティック回帰分析は、特に2値の分類・判別に利用される多変量解析手法です(二項ロジスティック回帰)。ロジスティック回帰から得られるモデルや各独立変数が有意かどうかを調べ、有意ではない独立変数はモデルから除外し、またその他の候補となる独立変数をモデルに投入し、試行錯誤を繰り返しながら予測モデルを構築していくのは、基礎的な線型回帰分析と同じです。 線型回帰分析の場合、モデルの説明力(寄与率)を調べるためにR2乗という指標を利用しますが、ロジスティック回帰ではR2乗値は計算されません。一応、R2乗値に相当する擬似R2乗という指標がありますが(Nagelkerke R2乗)、線型回帰におけるR2乗ほどには役に立ちません。 その他、ロジスティック回帰のモデルの適合度を調べるための方法として、HosmerとLemeshow(ホスマー・レメショウ)の適合度検定を用いることもあります。これは、回帰式の

  • 1