タグ

ブックマーク / blog.goo.ne.jp/r-de-r (23)

  • ジッター(3) - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 ggplot の boxplot でデータもプロットすると,jitter が使われて悲惨な結果になる http://rpubs.com/msonnabaum/ebs_piops "EBS provisioned IOPS" がその一つの例だろう。 library(ggplot2) library(reshape) df.ebs <- read.csv("http://dl.dropbox.com/u/361076/raw_ebs_stats.csv") df.ebs.melted <- melt(df.ebs, id = c("bricks", "server_type", "instance_id"), variable_name = "op", na.rm = TRUE) df.e

    ジッター(3) - 裏 RjpWiki
  • RStudio で日本語が使えなくなっていた - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 ご注意: 2021 年 2 月における R 4.0.4 での話ではありませんから。 RStudio Version 1.1.456 を立ち上げると, During startup - Warning messages: 1: Setting LC_CTYPE failed, using "C" 2: Setting LC_COLLATE failed, using "C" 3: Setting LC_TIME failed, using "C" 4: Setting LC_MESSAGES failed, using "C" 5: Setting LC_MONETARY failed, using "C" と出て,案の定,日語を含むプログラムを読み込むと,文字化けしている。 もう,こ

    RStudio で日本語が使えなくなっていた - 裏 RjpWiki
    abrahamcow
    abrahamcow 2019/03/12
    “Sys.setlocale("LC_ALL", "ja_JP.UTF-8") ”
  • wilcox.test と wilcox_test 前者だったら残念ですね! - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 これも,非公開にされたのね。リンク切れになちゃった。 確かに,不都合な事実は消去したいというのはもっともだとは思うのだけど。不十分でしたと潔く振る舞うのもブシノスガタではないかな? http://my-notes.hatenablog.com/entry/2017/09/15/173257 | My Notes | 統計学とかR(R言語)とかPython3とかプログラミングとかの覚え書きとか走り書きとか。 座右の銘にしたい: All work and no play makes Jack a dull boy. | 2017-09-15 | R(R言語) ノンパラメトリック検定(独立サンプルの比較、独立した2群の中心位置の比較、Mann-Whitney (マン・ウイットニー) 検定(U

    wilcox.test と wilcox_test 前者だったら残念ですね! - 裏 RjpWiki
    abrahamcow
    abrahamcow 2018/09/20
    順位和検定 ウィルコクソン
  • 時系列データだって言ってもねえ...(2) - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 向後先生のアイスクリームデータ http://kogolab.chillout.jp/elearn/icecream/chap4/sec1.html は,土日を除く平日の 20 日分。気温と客数の相関係数は 0.8703519。 なんか,事前に相関係数=0.987 を指定して,二変数正規乱数を発生させてデータを作ったっぽいなあ。 で,PP.test(Phillips-Perron Test for Unit Roots)ってのをやってみると, 最高気温の P 値は 0.3427 単位根過程でないとはいえない,客数の P 値は 0.01 で単位根過程ではないと言う結果。 まあ,暑いさなかだと,前の日が暑ければ当日も翌日も暑いんだろうなあとは思う。それに比べ,客足は単位根過程とは思えない。

    時系列データだって言ってもねえ...(2) - 裏 RjpWiki
  • 時系列データだって言ってもねえ... - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 > https://twitter.com/KuboBook/status/660779858327269377/photo/1 「アイスクリームの販売数~気温」といった Y ~ X といった線形回帰・線形相関等が調べられていますが,X と Y が時系列データである場合,これは「見せかけの回帰」(spurious regression) とよばれるものになっています まさかね。そこまで疑う?? 気温が高くなればアイスクリームが売れるというのが,見せかけの相関と?? 見せかけの相関を除いた真の相関関係はどうなっているのか,文句付けるだけで,何の分析もできないの? 時系列だから問題というなら,時系列のせいではない(時系列の縛りのない)データ,例えば,10日ごとのデータについて分析するならよ

    時系列データだって言ってもねえ... - 裏 RjpWiki
  • サンプルサイズが多いと有意になりやすいからネェ... - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 ごもっとも。しかし,その陳述の妥当性は「...」の内容によりますね。 p1=0.12, p2=0.08 の片側検定なら,検出力を幾つに設定するかによって,「統計学的に有意な差である」というために必要なサンプルサイズは図のようになる。 普通は検出力を 0.8 にすることが多いので,700 人ずつということになる(そもそも p1=0.12, p2=0.08 なんだから,700 人ずつになるわけはないけど)。 http://aoki2.si.gunma-u.ac.jp/R/power_prop_test2.html によれば, > power.prop.test3(Pc=0.08, Pt=0.12, r=2/3, sig.level=0.1, power=0.8) Nc       Nt 5

    サンプルサイズが多いと有意になりやすいからネェ... - 裏 RjpWiki
  • 基礎をしっかり - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 「単純な集計とデータサイエンスによる分析とで結果がい違うかもしれない3ケース」なんだけど... 結論は別によいのだけど,基礎が危ういなあと思うので一言。 筆者は, 世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々ありますので、 と書いていて,「何故かある」と質が分かっていないような書きぶりなのです。 これは,多変量解析では当たり前なことです。多変量解析の結果は,単変量(より低次元)の分析結果からは推測できないということ。件のデータも,cv が yes/no 別に a1~a7 の変数 0/1 の

    基礎をしっかり - 裏 RjpWiki
    abrahamcow
    abrahamcow 2015/03/14
  • Effect size 効果量っていってもね... - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 「効果量でものを言え」といってもね... 効果量大,中,小が 0.8, 0.5, 0.2 ということは,図に示すように明らかなことなんだけど, 対照群(平均値=50,標準偏差=10)のとき,処置群(平均値=58, 55, 52, 標準偏差=10)なわけで, 対照群では平均値以上のものの割合は 50% であるが,処置群では対照群の平均値より大きいものの割合はそれぞれ 78.8%, 69.1%,57.9% と確かに多いわけではあるが... それらは,対照群に比べて実質的にどれくらい優れていると評価できるのか? 効果量が 0.2 程度の制がん剤は意味があるのか?おそらく無いであろう。 しかも,社会学や心理学のように,サンプルサイズをふんだんに確保することなんかできないのだから。 そんな場合に

    Effect size 効果量っていってもね... - 裏 RjpWiki
  • ヒストグラムの一部分に色をつける - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 いろいろ拡張した。 いつか必要になったときに備えて,メモしておく。 histcol2 = function(obj, lower, upper, probability = FALSE, ...) { if (class(obj) != "histogram") { obj = hist(data, plot = FALSE) } y = if (probability) obj$density else obj$counts breaks = obj$breaks n = length(y) paint = (upper[1] > breaks) & (breaks >= lower[1]) if (length(lower) > 1) { for (i in 2:length(lo

    ヒストグラムの一部分に色をつける - 裏 RjpWiki
    abrahamcow
    abrahamcow 2015/01/21
    ヒストグラムの一部に色をつける
  • 適合度の検定について(2) - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 「適合度の検定について」に対し,中澤さんからコメントをいただいた。 > vcd パッケージの goodfit が便利です はじめて使ってみました。 > goodfit(as.table(tab1)) Observed and fitted values for poisson distribution with parameters estimated by `ML' count observed       fitted 0        0 2.150092e-03 1        0 2.805870e-02 2        0 1.830830e-01 3        1 7.964111e-01 4        1 2.598291e+00 5        3 6.

    適合度の検定について(2) - 裏 RjpWiki
  • 適合度の検定について - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 「交代再生過程のある時刻における状態がポアソン分布に従うか否かシミュレーションしてみた.(非公開にされました)」において, > 検定の仕方まちがえてるのだろうか? ということですが。そのとおり,残念ながら,間違えています。 著者が最初にやった chisq.test(tab1) は,一様分布に従うかどうかの検定です。一様とはとてもいえないので,帰無仮説は棄却されてしまいますね。 やるべき検定は,適合度検定です。chisq.test 関数を使います。 一様分布に従うかどうかも,適合度検定ですが,chisq.test の引数に p というのがあり,分布が理論比 p に従うかどうかの適合度の検定を行うのです。n 個のカテゴリーがある場合の一様分布の適合度検定は p = 1/n がデフォルトにな

    適合度の検定について - 裏 RjpWiki
  • Rstudio の使い方(Mac の場合?) - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 少なくとも,私の環境 Mac OS X 10.8.1 では,Rstudio 0.96.330 は,日本語入力においてユーザにストレスを感じさせる(入力中,全く入力状況が表示されない) 。とても,まともに使うことはできない。 偶然(?)発見した少しはましなやり方は, 1. 外部エディタ(私は Jedit 2.33)を使って,ソース(*.Rmd)を作る・編集する 2. Rstudio で,そのファイルを使用するようにしておくと,外部エディタの編集結果を保存すると,Rstudio のソース・ウインドウに *.Rmd の編集結果が反映される 3. Rstudio で "Preview" をクリックすると,その時点での *. Rmd  ファイル から *.html ファイルが作成され,その結果が

    Rstudio の使い方(Mac の場合?) - 裏 RjpWiki
    abrahamcow
    abrahamcow 2015/01/07
    Rマークダウン
  • R で移動平均 - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 「R で移動平均を求める--R プログラミングの小ネタ」で, > Rには移動平均そのものずばりを求める関数はないようです。 とあるが,latticeExtra の simpleSmoothTs というのがある。width はデフォルトでは NROW(x) %/%10 + 1 なので,自分で決めた方がよいようだが。 x = c(67, 59.2, 48.4, 56.5, 66.9, 79.1, 91.8, 87.6, 52.2, 66.4, 99.3, 159.3, 74.3, 57.3, 38.5, 42.7, 46.2, 42, 24.7, 26.4, 43.4, 38.5, 44, 31.8, 12.5, 41.9, 31.3, 44.2, 26.6, 23.2, 18, 20.8

    R で移動平均 - 裏 RjpWiki
    abrahamcow
    abrahamcow 2015/01/07
    移動平均
  • ggplot2 をもてはやす輩がいるようだが - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 たいして,きれいでもないし,大局観に基づいているわけでもないし,ブラックボックス信奉を煽るだけではないかなあ。そのうち,下火になるだろう。 背景がグレー(デフォルトがグレーなだけで,背景を白にすることもできるけど)というのは,いかにもださい。色も「落ち着いた色」を使おうとしているのだが,くすんだ色で,ださい感じ。鮮やかな色というわけではないけど,いかにもみすぼらしい色使いだ。 格子線を描くのもださい。まあ,そのあたりの感覚は個人差があるのだろうけど。まあ,Excel のださいグラフに通じるところがあるという気がするわけだ。あれも,描画領域がグレーで,補助線引きマクリだったよね。そういうのが好きな人は好きなんだろうね(ちなみに,表を作るときにセルの周りにガチガチに線を引き回った表を作る習

    ggplot2 をもてはやす輩がいるようだが - 裏 RjpWiki
    abrahamcow
    abrahamcow 2014/11/04
    「そのうち,下火になるだろう。(2011年)」さて、どうなるかな。
  • ダメ出し:凡例の順序が逆 - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 ggplot2 の geom_bar の作図例で "Stacked bar charts" の凡例とグラフの順序が逆。色使いも下品だが。 ggplot(diamonds, aes(clarity, fill=cut)) + geom_bar() 普通に barplot で描いてみよう。ちゃんと順序がそろう。 ans <- xtabs(~cut+clarity, diamonds) col <- c("#00a0e960", "#e4007f60", "#00994460", "#f3980060", "#0068b760") old <- par(las=1, mar=c(6, 6, 1, 1)) barplot(ans, legend=rownames(ans), col=col,

    ダメ出し:凡例の順序が逆 - 裏 RjpWiki
    abrahamcow
    abrahamcow 2014/11/03
    コメント欄を見よ
  • 2 個の時系列データの相関を考えるときは... - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 http://abrahamcow.hatenablog.com/entry/2014/09/11/024924 「時系列データの相関係数はあてにならない……のか? 教えて下さい」なんだけど... 私のコメントが気に触ることが多いようなのですが(特に悪意はないつもりなんですけど,すみませんね) 私は,経済学とか時系列についてはよく知らないのですが,「これは「見せかけの相関(擬似相関;spurious correlation)」の例だ」ということならば,偏相関係数を考えればよいのではないでしょうかね??社会学などでは当たり前のように使われていると思うのですが。 > set.seed(1) > x = cumsum(rnorm(100)) > set.seed(2) > y = cumsu

    2 個の時系列データの相関を考えるときは... - 裏 RjpWiki
  • ダメ出し:ちゃんとしたグラフを描こう - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 「ggplot2:scale_shape_manual ggplot2メモ:水準を形で分ける」において,以下のようなグラフを描いている。 水準が9個あり,色や線種を変えて折れ線グラフを描くと見にくいということで,記号も付けて描いたということだが,当に見やすいのか?例えば,この折れ線の中から日がどれなのか,探すのは簡単か? 簡単でない理由は,折れ線の凡例が体と分離されているからだ。凡例が枠外にあるからではない。 以下のような,標準の matplot を使って描いた図と比べれば,差は一目瞭然。 見た目が派手(きれい?)なグラフを描くことに腐心するより,見やすいグラフを描くようにしたいものだ。パワポで見せびらかすにはよいかも知れないが,学会誌に ggplot2 で描いたような図は載らな

    ダメ出し:ちゃんとしたグラフを描こう - 裏 RjpWiki
  • 塵も積もれば山となる - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 http://hivecolor.com/id/102 「ABテストを検定する」だが... 1. 標数が少ない時は、有意差があるのかを知るために検定が必要です 「標数」という用語の使い方を間違えている。あなたが使っているコンテキストでは,「標の大きさ」あるいは「サンプルサイズ」と言うべき。ABテストの状況では,「標数は常に 2」なのだから。 R の,prop.test(c(x1, x2), c(n1, n2)) の結果の表示で,"2-sample test for equality of proportions" と出るでしょう。 なお,後の方に,「サンプルスウ」という用語が出てきますが,曖昧な用語ですね。実験なんかで「試料」のことをサンプルと呼ぶことがあるので,「試料の数」と

    塵も積もれば山となる - 裏 RjpWiki
  • Web アプリの結果が変??かな?? - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 http://web-analytics-or-die.org/2011/08/how_to_interpret_abtest/ 「A/Bテストの結果をどのように解釈するか?」だけど... 1. 「A/Bテストはどのくらいの期間、実施すれば良いのですか?」 > 期間は関係ありません、両パターン間に有意差が認められるまでです > CVが各100件集まるくらいが目安です パワーアナリシスをするべきですね。「有意差が認められるまで」ではなく「『事前に設定した差』を検出するのに必要なサンプルサイズになるまで」ですね。 2. Aパターン、BパターンのCVRが取りうる範囲がかなり被っていることがわかります。範囲が被っているということは、どちらのCVRの方が高くなるのかわからないということです 示さ

    Web アプリの結果が変??かな?? - 裏 RjpWiki
  • 騙されてはいけませんよ - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 http://blog.share-wis.com/?p=359 「誰でも簡単にA/Bテストが作れるOptimizelyを実際に使ってみた」なんだけど... オンラインツールを使って A/B テストを実際にやってみた結果の図が掲示されている。 (1) B: 138/219 = 63.4%(±6.4%) と A: 108/186 = 58.1%(±7.1%)で 8.5% 増という結果になった 独立二標の比率の差の検定は,以下のようになり,有意差があるとはいえない結果である。後述(4)は怪しいものだということが分かる。 「8.5% 増」というのは,(63.0 - 58.1)/58.1*100≒8.5 ということであろうが,数字のマジックというか,パーセントのパーセントを取るというのも結果

    騙されてはいけませんよ - 裏 RjpWiki