pythonに関するHazumu12のブックマーク (2)

  • 相関分析の時に四分位範囲(IQR)で外れ値を見つける(Python) - 俺、サービス売って家買うんだ

    2変数の間に関係性があるかどうか調べる時に、ピアソンの相関係数を扱うことは非常に多いと思います。 しかし御存知の通り、相関係数は扱うデータのサンプルの外れ値に大きく影響を受けます。 テストの問題を解くだけなら良いのですが、実際に分析していると外れ値の処理(データクレンジング)や、正規分布の検定 をしなければなりません。 今回は、変数間の相関を分析する際の、四分位範囲(IQR)を用いた外れ値の対応について、Pythonを用いて書いていきます。 目次:相関を分析するための手順 そもそも外れ値とは? まずはサンプルデータと散布図の作成 相関係数の計算と、四分位範囲を用いたはずれ値の検出 1. そもそも外れ値とは? 外れ値とは? 外れ値とは、統計において他の値から大きく離れた値のことを言います。 (例:身長2mのバスケット選手は1万人に1人で、平均身長170cm から大きく離れているため、外れ値と

    相関分析の時に四分位範囲(IQR)で外れ値を見つける(Python) - 俺、サービス売って家買うんだ
    Hazumu12
    Hazumu12 2016/04/14
    なるほどね
  • Pythonで分析開発環境をつくる (AWS RDS + iPython + Anaconda) - 俺、サービス売って家買うんだ

    アクセスログとは別にデータベースに直接アクセスして分析したいみたいなことって結構あると思うんですよね。 でもわざわざsshでログインして、そのサーバーに分析環境作ってみたいのって面倒な上になんかぶっ飛ばしちゃいそうで怖いじゃないですか。 なので今回は、Pythonでフレッシュな状態の RDSにアクセスしてiPython+Anacondaでパワフルに分析できるように環境を整えようと思います。 Anacondaのインストール iPythonの初期設定 RDSの設定と接続テスト 1. Anacondaのインストール Anacondaはnumpyとかipythonとか分析に必要なライブラリが一括で入っているパッケージです。 Pyの分析環境構築は日語ドキュメント少ないし、こけまくるので素直にAnaconda使ったほうがいいと思います。 インストールコマンド #まずはpyenvのインストール $br

    Pythonで分析開発環境をつくる (AWS RDS + iPython + Anaconda) - 俺、サービス売って家買うんだ
  • 1