タグ

ブックマーク / okumuralab.org/~okumura (6)

  • ROC曲線

    試験の点数から○○大学に合格(T)か不合格(F)かを予測したいときや,検査値から病気(T)か健康(F)かを判断したいときなどがあります。要するに,与えられた値から,真(TRUE)か偽(FALSE)かを判断したいわけです。 例として右の表のような場合を考えましょう。 与えられた値をどこで切っても,TとFは完全には分離できません。例えば11で切って,11以上を陽性(positive),11未満を陰性(negative)とした場合,10個のTのうち5個がpositiveに入りますので,true positive(真陽性)の割合は0.5です。また,5個のFのうち1個がpositiveに入りますので,false positive(偽陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。このように,区切る値(閾値,カットオフポイント)をいろいろ変えて,横軸にfalse positi

    tk60qt
    tk60qt 2014/11/21
  • 統計グラフの色

    [TODO] R 4.0.0 以降の色についてはそのうち書きます。とりあえず palette() のヘルプをご覧ください。palette("Okabe-Ito") とするとsafe colorsになります。→ A New palette() for R,Color Universal Design,Essentials of color in R。あと Colorspace 2.0 とその JSS paper。 はじめに 統計グラフに色を付けることは広く行われています。しかし,色は万人に共通のものではありません。日人男性の5%,白人男性の8%は,RGB(赤緑青)のうち赤と緑の区別がうまくできません。その内訳は1:3で赤の感受性がないP型(1型,protanopia)と緑の感受性がないD型(2型,deuteranopia)に分かれます。青を感じない人や,RGBのうち2色以上を感じない人もい

    tk60qt
    tk60qt 2014/06/24
  • グラフの描き方

    的な考え方 棒グラフは比例尺度の量を表すのに用い,棒の長さ(面積)が量に比例するように描くのが基。一つだけずば抜けて大きい値があるときに棒の上のほうで省略線を用いることはあるが,下を省略して全体の長さを切り詰めることは好ましくない。例えば気象観測データについては,雨量は比例尺度であるので棒グラフで表してもよいが,気温は(絶対温度でない限り)間隔尺度であり,棒グラフは使えない。 折れ線グラフは,両軸とも間隔尺度以上であるのが基。0点から始める必要はない。特に時系列データについてよく使われる。 円グラフは全体における割合を表すにはよいが,全体との比較ではなく個々の値どうしの比較には棒グラフがよい。いわゆる3次元(3D)円グラフは,錯覚を利用して特定の部分を大きく見せるためのもので,一般には用いない。 円グラフは複数回答のアンケート結果の図示には絶対に用いない。 色分けして凡例を付けるの

    tk60qt
    tk60qt 2013/12/19
  • ひつじがnひき

    眠れない夜は,ひつじを数えてみましょう。 for (i in 1:10) cat("ひつじが", i, "ひき\n") 眠れない夜が続くときは,ひつじを数える関数を作りましょう。 hitsuji = function() { for (i in 1:10) cat("ひつじが", i, "ひき\n") } これで hitsuji() と打てば,ひつじが数えられます。単に hitsuji と打つと関数の定義を見ることができます。 ひつじの数を変えられるようにしてみましょう。 hitsuji = function(n) { for (i in 1:n) cat("ひつじが", i, "ひき\n") } これで hitsuji(100) と打てば,ひつじが100ひき数えられます。

    tk60qt
    tk60qt 2013/12/18
    “眠れない夜が続くときは,ひつじを数える関数を作りましょう。”
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

    tk60qt
    tk60qt 2013/12/18
    奥村晴彦先生によるR入門
  • ~/.Rprofile

    私のホームディレクトリに置いている .Rprofile というファイルです。ネットで流布しているものをコピペしてきたもので,オリジナリティはまったくありません。 Sys.setenv(TZ="Asia/Tokyo") options(repos="https://cran.ism.ac.jp") if (interactive()) { if (capabilities("aqua")) { options(device="quartz") } setHook(packageEvent("grDevices", "onLoad"), function(...) { if (.Platform$OS.type == "windows") grDevices::windowsFonts(sans ="MS Gothic", serif="MS Mincho", mono ="FixedFont

    tk60qt
    tk60qt 2013/12/18
    奥村晴彦先生によるRprofile
  • 1