TYKのブックマーク - はてなブックマーク

ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む

1. はじめにブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます。 2. ブートストラップ信頼区間ブートストラップ法は、理論的に求めるのが難しい統計量を、経験分布からのシンプルなリサンプリングによって推定できるという手法です。ブートストラップ法では、推定された統計量に対して、その信頼区間を求めることもできます。このような信頼区間をブートストラップ信頼区間といいます。ブートストラップ信頼区間を求める方法については色々議論があるようですが、主な手法は次の5つです。正規分布近似法ベーシック法パーセンタイル法 BCa法(bias-corrected and accelerated percentile me

TYK 2016/05/28

statistics
R

リンク

ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む

【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。【宣伝終】最近、ベイズ統計の入門書がたくさん出版されているので、ここで一旦まとめてみようと思います。 1. 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 (2015/6/25) 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2015/06/25メディア: 単行本この商品を含むブログ (6件) を見るデータ分析業界ではかなり有名な豊田秀樹先生の本です

TYK 2015/12/28

statistics

リンク

実践統計モデリング入門【1. 概要・目次】 - ほくそ笑む

【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。【宣伝終】はじめに統計モデリングは今後ますます重要になってくる技術です。現在、Web 上には統計モデリングに関する様々な優良記事があります。それらの記事は、完成したモデルをスマートに提示しているものが多いようです。しかし、実際の統計モデリングの現場は決してスマートなものではなく、様々な泥臭い試行錯誤を行いながら地道にモデルを構築していきます。この一連の記事では、最終的なモデルの完成形をいきなり提示するのではなく、モデル構築の手順をスッテプバイス

TYK 2015/05/12

stan

R
statistics

リンク

マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。以前、Student の t 検定についての記事を書きました。小標本問題と t検定 - ほくそ笑むしかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

TYK 2015/02/17

t検定

statistics
R

リンク

統計的消去で擬似相関を見抜こう！ - ほくそ笑む

今日は初心者向け記事です。はじめにある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。身長に対する算数の点数のグラフは次のようになりました。なんと、身長の高い子供の方が、算数の点数が高いという結果になりました！身長が算数の能力に関係しているなんて、すごい発見です！しかしながら、結論から言うと、この結果は間違っています。なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。この関係を図で表すと次のようになります。つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。このような相関を擬似相関と言います。統計解析では、このような

TYK 2013/07/11

statistics
R

リンク

R を終了させる最短コードがおもしろい - ほくそ笑む

R 環境を終了させたいときは、コマンドラインに q() と打てば終了できます。q() は quit() の省略形で、このままだと Save workspace image? [y/n/c]: などと聞かれるので、それがうっとおしい人は q("no") のように打てば確認されずに終了できます。しかし、R を終了させるために 7 文字も打つのはめんどくさいと言う人たちがいます。そういう人たちのために、 Q と打つだけで終了できるようにするテクニックがあります。どういうテクニックかちょっとおさらいしておきましょう。*1 Q で R を終了させるテクニックまず、コマンドラインに x <- 3.14 x と打つと [1] 3.14 と表示されますね。ここで、2行目の x は暗黙のうちに print(x) を呼び出していることを思い出してください。 print() は内部で UseMetho

TYK 2012/12/21

R

リンク

R で Excel っぽい色を出す - ほくそ笑む

仕事をしていると思いもよらない要求がお客さんから出たりするものです。先日、あるグラフをお客さんに提出したところ、「色がカラフルすぎる。Excel っぽい地味な色にしてほしい」という要求が出ました。そういえば R が生成する色って原色系が多いのかなーと思ったり。例えば rainbow() はこんな感じの色を出してくれます。 n <- 20 pie(rep(1, n), col=rainbow(n), clockwise=TRUE, border=NA, labels=NA, lty=0) 確かにカラフルです。で、Excel で同じものを描くと地味です。お客さんも「絶対 Excel っぽくしてほしい」というわけではなかったのですが、面白そうだったので R で Excel っぽい色を出す関数を作ってみました。 excel.like.color <- function(n) { n <

TYK 2012/07/04

R

リンク

三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった - ほくそ笑む

以前、三次元散布図をRで描いてみたという記事で紹介したRGLパッケージに画期的な新機能が加わったので紹介します。 (情報源：R: Interactive 3D WebGL plot of time-space cube with RGL | geolabs) RGLパッケージの良いところは、3次元プロットをマウスドラッグでグリグリ動かせるところなのですが、いざ、ファイル出力しようとすると、静止画か動画でしか保存できず、インタラクティブな3次元プロットをそのままファイルに保存することができないというのが欠点でした。しかし今回、新機能として、WebGL で動く HTML ファイルとして保存できる機能が付加されたようです。さっそく試してみましょう。 install.packages("rgl") library("rgl") data(trees) plot3d(trees) writeWe

TYK 2012/04/25

R

リンク

統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか - ほくそ笑む

主成分分析のQモードとRモードの違いについて調べていたんですが、ネット上にほとんど情報を見つけられませんでした。クラスター分析とか相関係数にもQモードとRモードがあるみたいで、統計では結構一般的に使われている言葉みたいなのですが、これだけ日本語情報が少ないとなるとちょっと困りますね。統計言語Rのメーリングリストにちょうど次のような質問が寄せられていたので、一部翻訳してみました。こんにちは。どなたか主成分分析のQモードとRモードの違いについて教えていただけないでしょうか。それぞれ prcomp() と princomp() 関数に対応しているようなのですが。 by Lívio Cipriano こんにちは Livio、 prcomp のヘルプファイルにはこんなことが載ってるよ：この計算はデータ行列の特異値分解によって行われます。共分散行列の固有値は使用されません。これは一般的に、

TYK 2012/04/23

statistics
R

リンク

「子供に解けて大人に解けない問題」を統計的に無理やり解いてみた - ほくそ笑む

今日は、R-bloggers に面白い記事が上がっていたので、それを紹介してみようと思います。問題「子供にはすぐに解けて、大人にはなかなか解けない不思議な問題」をご存知でしょうか？最近ネットで割と話題になりました。その問題は、次のようなものです。 8809 = 6 7111 = 0 2172 = 0 6666 = 4 1111 = 0 3213 = 0 7662 = 2 9312 = 1 0000 = 4 2222 = 0 3333 = 0 5555 = 0 8193 = 3 8096 = 5 7777 = 0 9999 = 4 7756 = 1 6855 = 3 9881 = 5 5531 = 0 2581 = ? https://twitter.com/#!/yappyJP/statuses/172086299099004928 なかなか面白い問題です。答えはここでは書きませ

TYK 2012/03/30

statistics

リンク

統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

はじめに統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。それでは実際のデータをどうやって手に入れましょうか？実験や調査をして実際のデータを得るのは大変でお金もかかります。幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。というわけで、今日は、

TYK 2012/02/14

R
statistics

リンク

主成分分析が簡単にできるサイトを作った - ほくそ笑む

あけましておめでとうございます。本年もよろしくお願いいたします。主成分分析さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。主成分分析は統計言語 R で簡単にできます。例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *