タグ

統計学に関するkomenokamiのブックマーク (4)

  • 多重共線性とは何? わかりやすく解説 Weblio辞書

    通称「マルチコ」。独立変数間に非常に強い相関があったり,一次従属な変数関係がある場合には,解析が不可能(「逆行列が求まりません」というエラーメッセージが出力される)であったり,たとえ結果が求まったとしてもその信頼性は低い。このような場合に多重共線性があると言われる。 詳しくは,重回帰分析を参照のこと。 変数選択を行わない場合には,独立変数相互間に相関の高いものは含めないほうがよい。 もし,それらの中に独立でないものが含まれていると( 例えば変数 A,B とその合計値 C = A + B が共に含まれていると )分析は失敗する。 場合によっては,各独立変数と従属変数との相関係数の符号と,偏回帰係数の符号が一致しない場合が生ずる。これは,「予測を行う」という観点から偏回帰係数が定められるので,重回帰式に含まれた変数相互間の関連で符号が決められるためである。このようなことが起きるのは,独立変数間

  • p値の価値 - himaginary’s diary

    今月初めに米統計学会がp値の使用に関する6つの原則を公表した。その責任者である同学会Executive DirectorのRonald L. Wassersteinは、Retraction Watchという論文撤回監視ブログ*1のインタビューに応じ、最近の再現性危機問題が今回の声明の背景にあることを説明している(H/T Mostly Economics)。日でもこの6原則は各所で取り上げられており、Naverまとめがその辺りに詳しい。 米統計学会のサイトでは、この6原則を提示した声明文書と共に、同文書のp値の議論に関する21人の統計学者の反応も併せて公開している。そのうちUCバークレー教授のPhilip B. Starkが、表題の小論(原題は「The Value of p-Values」)で、今回の声明の精神は買うが、内容には若干の違和感がある、として以下の点を指摘している。 The i

    p値の価値 - himaginary’s diary
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1