タグ

Statisticsに関するsomemoのブックマーク (135)

  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 「データ解析のための統計モデリング入門」第3章メモ #みどりぼん - 木曜不足

    6/10 に開催された「データ解析のための統計モデリング入門」、通称「みどりぼん」の第3回読書会にのこのこ参加& LT してきた。主宰のやまかつさん、発表者&参加者の皆さん、会場を提供してくださったドワンゴさん、ありがとうございました。 第3回「データ解析のための統計モデリング入門」読書会 - connpass LT は……正直、ネタを思いついた時は、ええやんおもしろいやん、とかなぜか思いこんでた。当日の朝くらいに「測度論とかないわー」ということにやっと気づき、一週間前の中谷の後ろ頭をしばき倒したくなったが、もはや後戻りはできず。この LT をちゃんと最後までやり通したという一点で褒めてあげて欲しい…… に教えてもらうルベーグ可測 from Shuyo Nakatani さて気を取り直して。 質疑応答の時にあれこれ好き勝手なことを突っ込ませていただいてたのだが、読書会終了後にそのあたりを

    「データ解析のための統計モデリング入門」第3章メモ #みどりぼん - 木曜不足
  • 心理データ解析第10回(1)

    パス解析とは 重回帰分析や共分散構造分析(構造方程式モデリング; SEM)を応用した解析のこと。 変数の因果関係や相互関係を図(パス図;パス・ダイアグラム)で表現する。 パス図(パス・ダイアグラム; path diagram)を描く パス図とは…変数間の相互関係や因果関係を矢印で結び,図に表したもの。 矢印 因果関係は片方向きの矢印「 →」で,相関関係は双方向の矢印「<->」で表す。 この矢印「 →」を「パス」という。 パスの傍らには,「パス係数」という数値や有意水準(*, **, ***)が記入される。 記入するパス係数は,(重)回帰分析や共分散構造分析などで算出された標準偏回帰係数を用いる(回帰分析の結果は,パス係数の近似値になる)。 相関関係(共変関係)の場合は,相関係数や偏相関係数を記入する。 観測変数 観測変数とは,直接的に測定された変数のことである(因子分析でいえば「項目」にあ

  • 重回帰の変数選択についての追記:交絡調整との兼ね合い - Take a Risk:林岳彦の研究メモ

    いまフェスで鹿児島に来ています*1。 先日の重回帰の記事の追記として、「相関のある変数を取り除くこと」を「交絡調整」という視点からさくっと語りなおしてみたいと思います。 (これから書くことはたぶん間違ってはないハズとは思うんですが、もし間違っていたら適宜ご指摘ください>識者の方々) 変数の追加による交絡の調整 例として、以下のような因果構造をもつ場合について考えていきます。 ここでYは目的変数、A、B、CはYに対して因果的影響をもつ変数となります。また、とりあえずCは観測されていない(統計解析の際に説明変数として入れない)とします。 ここでわれわれが興味があるのは「要因Aの結果Yに対する因果効果の大きさ」であるとしましょう。 ここでAを説明変数として単回帰すると、どうなるでしょうか。 この場合、要因AとBの間に擬似相関があるので: Aの単回帰係数 = AのYへの影響+AB間の擬似相関による

    重回帰の変数選択についての追記:交絡調整との兼ね合い - Take a Risk:林岳彦の研究メモ
  • 重回帰分析における多重共線性への対処ストラテジーのメモ - Take a Risk:林岳彦の研究メモ

    良い機会なので重回帰分析についてのメモをちょっと残しておきます。 今日のネタはこちら: Excelで学ぶ共分散構造分析とグラフィカルモデリング 作者: 小島隆矢出版社/メーカー: オーム社発売日: 2003/12メディア: 単行購入: 13人 クリック: 152回この商品を含むブログ (9件) を見る私はとってもこのが大好きです!「エクセル」と銘打たれているので敬遠しがちかもしれませんが、かゆいところに手が届いてくる良い説明の多いだと思います。みんな買うとよいと思うなあ。 「マルチコ」と「マルチコモドキ」 このでたいへん勉強になったのは、いわゆる多重共線性(以下マルチコと略)の問題といわれているものの中には実は次の二つが含まれるという話です。 来のマルチコ:ある1つのモデルにおける偏回帰係数の標準誤差の増大 マルチコモドキ:モデルによって偏回帰係数の値が変わるという問題 この「

    重回帰分析における多重共線性への対処ストラテジーのメモ - Take a Risk:林岳彦の研究メモ
  • 因果推論のススメ - データサイエンティスト上がりのDX参謀・起業家

    2012年3月12日、計算機科学分野の権威ある賞、チューリング賞(wikiはこちら)をJudea Pearl先生が受賞されました(米記事はこちら、日記事はこちら)。Pearl先生は「因果推論」分野の権威です。因果推論はベイジアンネットワークや構造方程式モデリング(SEM、パス解析)などの基理論になります。チューリング賞が出たこともあって因果推論が注目されそうですが、難易度が高い分野でもあります。そこで、私が読んで理解が進んだを紹介致します。 まずは、このエッセイを読むと「因果関係とは何か?」「効果とは何か?」といった事をとてもイメージしやすくなります。これは医療統計分野のなので、「ランダム化試験」という用語で因果関係を説明していますが、web業界の方はA/Bテストと言った方が分かりやすいかもしれません。A/Bテストをすることでレイアウトの良し悪しが判明するのも、基礎には因果推論の

    因果推論のススメ - データサイエンティスト上がりのDX参謀・起業家
  • Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ

    前回の記事では計量時系列分析とは何ぞや?みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。 ということで改めて、使用テキストはいつものこちらです。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ {forecast}をインストールして展開して下さい。Rそのものの初心者向け説明はここでは全面的に割愛するので、適宜何かしらの初心者向け説明をご参照あれ。 今回のモデルで目指すもの 前回の記事では、要は「自己相関が大事よー」という話を何度もしました。ということは、時系列モデリング

    Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計学入門−目次

    最終更新日:2022年08月24日 前口上へ 第1章へ webmaster@snap-tck.com Copyleft (C) 2000 SNAP(Sugimoto Norio Art Production)

  • オーム社『マンガでわかる統計学』シリーズの演習Excelファイル - MyEnigma

    マンガでわかる統計学posted with カエレバ高橋 信,トレンドプロ オーム社 2004-07-01 Amazonで探す楽天市場で探すYahooショッピングで探す マンガでわかる統計学 回帰分析編posted with カエレバ高橋 信,井上 いろは,トレンドプロ オーム社 2005-09-01 Amazonで探す楽天市場で探すYahooショッピングで探す マンガでわかる統計学 因子分析編posted with カエレバ高橋 信,井上 いろは,トレンド・プロ オーム社 2006-10-26 Amazonで探す楽天市場で探すYahooショッピングで探す オーム社『マンガでわかる統計学』シリーズについて 近年、エンジニアにとって統計学は 必須の知識になっていると思います。 ビックデータという言葉が持て囃されていますが、 それ以前に、何か新しい製品を開発する時に、 何故、そのようなものが必

    オーム社『マンガでわかる統計学』シリーズの演習Excelファイル - MyEnigma
  • 「知恵ノート」は終了いたしました - Yahoo!知恵袋

    平素よりYahoo!知恵袋をご利用いただきありがとうございます。 2017年11月30日をもちまして、「知恵ノート」機能の提供を終了いたしました。 これまでご利用いただきました皆様にはご迷惑をおかけすることとなり、誠に申し訳ございません。 長年のご愛顧、心よりお礼申しあげます。 引き続き、Yahoo!知恵袋の「Q&A」機能をご利用ください。 Yahoo!知恵袋トップ 知恵ノートサービス終了のお知らせ プライバシー - 利用規約 - メディアステートメント - ガイドライン - ご意見・ご要望 - ヘルプ・お問い合わせ JASRAC許諾番号:9008249113Y38200 Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved.

    「知恵ノート」は終了いたしました - Yahoo!知恵袋
  • Statistics 110: Probability

    Joe Blitzstein, Professor of the Practice in Statistics Harvard University, Department of Statistics Contact A free online version of the second edition of the book based on Stat 110, Introduction to Probability by Joe Blitzstein and Jessica Hwang, is now available at http://probabilitybook.net Print copies are available via CRC Press, Amazon, and elsewhere. Stat110x is also available as an edX co

    Statistics 110: Probability
  • みどりぼんの次を考える: R Advent Calendar 2014 12日目 - 個人用データ解析備忘録

    2024.06 « 12345678910111213141516171819202122232425262728293031 » 2024.08 投稿はR Advent Calendar 2014 12日目の記事となります。 今年の4月から継続的に、@yamakatuさん主催の、 「データ解析のための統計モデリング入門(みどりぼん)」 読書会に参加し、 統計モデリングの勉強を進めてきました。 現在このの勉強会として 「続・わかりやすいパターン認識」読書会を主催させて頂いていますが、 GLM, GLMM, MCMCについての勉強も続けねば、と考えています。 さて、この時、みどりぼんを読み終えたあと、 次に何を読みながら勉強するのが良いのかと思い、調べてみることにしました。 巷の評判では、以下の The BUGS Bookの評判が良いようです。

  • ロジスティック回帰分析 ∼理論編 行動データ科学研究分野 M1 兼清 道雄 1 ロジスティック回帰分析 (logistic regression)とは 二値変数(ex.)満足・不満足) に対する回帰分析である 2 二値変�

    ロジスティック回帰分析 ∼理論編 行動データ科学研究分野 M1 兼清 道雄 1 ロジスティック回帰分析 (logistic regression)とは 二値変数(ex.)満足・不満足) に対する回帰分析である 2 二値変数とは? 二つのカテゴリーからなるカテゴリカル変数 消費税増税(5%→8%)に「賛成・反対」 ロジスティック回帰分析の使用経験「ある・ない」 笑い飯が「好き・嫌い」 笑い飯:M-1 グランプリ 2002,2003 決勝進出 笑い飯を「知っている・知らない」 逆上がりの「成功・失敗」 行政に対して「満足・不満足」 0と1のデータと考えることが多い 3 ロジスティック回帰分析で出来る事 「性別」と「年齢」が与えら れた時の「満足or不満」 の予測 女性 80%は満足 満足or不満 性別 満足or不満 「性別」や「年齢」の影響 の検討 + 性別 30歳

  • ぼくのかんがえたとうけいがくぶかりきゅらむ - Issei’s Analysis 〜おとうさんの解析日記〜

    個人的にもやもやと考えたカリキュラムです。日の大学には存在しない統計学部がもしあったら、こんなカリキュラムを組みたいなぁ、と。 統計学の講義は分布や変数の型を教えるところから入るんだけど、授業を受けていて分かりにくいな〜と学生の頃から常々感じていました。(あくまでも個人的な偏見と妄想に満ち溢れた記事であることをご了承ください。。) それでは、カリキュラムを発表します!! 1. データ解析I一般化線形モデル教師付き機械学習非線形モデル(一般化加法モデル)カテゴリカルデータ解析生存時間解析グラフィカルモデリング経時データの解析探索的データ解析(EDA)多次元データの縮約非教師付き機械学習(クラスタリング)データマイニング 2. データ解析IIデータハンドリングI(R)データハンドリングII(perlrubyなどスクリプト言語)データベースからのデータ取得I(RDBMS系)データベースからの

  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
    somemo
    somemo 2015/01/26
    モデル選択
  • JIN'S PAGE - R

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • Easy PCA - 簡単に主成分分析ができるページ

    At this site, you can easily execute PCA(principal components analysis). You can try by clicking the 'Show Demo' button.

  • 因子分析メモ - ほくそ笑む

    (※自分用メモです) 因子分析は、観測された変数(顕在変数)から、その因子である観測されていない変数(潜在変数)との関連を明らかにする解析手法である。 因子分析モデル 因子分析では、次の回帰モデルを仮定する。 ここで、 は顕在変数、 は因子負荷量、 は潜在変数(因子)、 は独自変量である。 上記回帰モデルから、次が成り立つ。 ここで、 は の共分散行列、 は の分散を対角成分に持つ行列(独自分散行列)である。 因子分析では、この式を満たす および を推定する。 推定方法 推定の方法は大きく2つある。 主因子分析 最尤因子分析 1.主因子分析は、固有値と固有ベクトルを用いた手法であり、あまり使われない。 2.最尤因子分析は、因子分析モデルにおける行列の推定量の差 を次のように定義し、 これを最小にすることにより推定する( は顕在変数の数、つまり の次数)。 を最小にすることは、尤度関数 を最

  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む