タグ

ブックマーク / iisssseeiiii.hatenablog.com (9)

  • Rで描くROC曲線 - データサイエンティスト上がりのDX参謀・起業家

    Rの場合SASと違って一連の解析がひとまとめになっていないため、いろんなパッケージを探してやりたい事を見つけなければいけない。 例えばロジスティック回帰を当てはめたときのROC曲線を確認したい時は、Epiライブライブラリなどを使う。 ROCの曲線下面積、AUCの信頼区間はDiagnosisMedライブラリで出来る。 ただ正解、不正解を示すベクトルを作る必要があるみたい。 SASだとVer9.2からAUCの検定が出来るようになったよう(proc logisticのcontrastステートメントだったと思う)。 ちなみにロジスティック回帰は以下のように行う。 glm(y~x + z, family="binomial") またggplot2を使えばロジスティック曲線の当てはめもできる。 コードはこちら↓ library(Epi) #ロジスティックモデルでROCを描く library(Diagn

    Rで描くROC曲線 - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2013/02/21
    ふむふむ
  • Pythonで分析や機械学習メモ - データサイエンティスト上がりのDX参謀・起業家

    私はRからプログラミングに入って分析もRでやってるわけですが、ちょっと大きめのデータになるとRでは扱うのが難しくなります。そこで前々からPythonに手を出そうとしていたのですが、なかなかインストールがうまく行きませんでした。しかし、ようやくPython環境を整えることが出来たので、メモしておきます(@teikawさんにいろいろ教えてもらいました)。 Pythonのインストールは良く使われるパッケージが入っている、enthoughtやpythonxyで行うのが良いです。自分は前者のアカデミック版をインストールしました。インストールした後、環境変数の設定が必要かもしれません(以前にPython単体でインストールしたときに環境変数は設定していました)。 機械学習を実行するにあたって、今一番アツそうなのがscikits.learnというライブラリです。これはGoogle summer codeが

    Pythonで分析や機械学習メモ - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2012/04/16
    pythonも勉強せにゃなあ。
  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2012/03/31
    文系がこれを真に受けると挫折すると思いますw 初心者はまず「R-Tips」や@sakaueさんの「はじめての「R」」あたりから始めた方がいいんじゃないかと。
  • メモ:大量データをプロットするときの濃淡プロット - データサイエンティスト上がりのDX参謀・起業家

    データが多くなってくると散布図が真っ黒になってしまうので、濃淡を付けることでどこに集中しているかが分かります。マイクロアレイ系でよく使われる Bioconductorというプロジェクトのパッケージを使うので、通常のパッケージをインストール方法が違います。 インストール source("http://www.bioconductor.org/biocLite.R") biocLite("prada") プログラム例 library(prada) n <- 10000 x1 <- matrix(rnorm(n), ncol=2) x2 <- matrix(rnorm(n, mean=3, sd=1.5), ncol=2) x <- rbind(x1,x2) smoothScatter(x) pairs(iris, panel = function(...) smoothScatter(...,

    メモ:大量データをプロットするときの濃淡プロット - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2011/11/30
  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
    bob3
    bob3 2011/09/18
    統計もプログラミングも初心者の人は阪上さん(@sakaue)のR入門者講習( http://slidesha.re/obtuFe )から入った方が良いかも。
  • CRAN Task View: Design of Experiments & Analysis of Experimental Data (の日本語訳) - データサイエンティスト上がりのDX参謀・起業家

    twitterで#RtransというRのドキュメント翻訳プロジェクトに関わっているのですが、Task Viewの方に浮気してしまいました。。。 いやでもこっちのドキュメントも重要だよね?と自分を納得させつつ、とりあえず訳します。 実験計画法の部分の訳です(ソースは→http://cran.r-project.org/web/views/ExperimentalDesign.html) どこかwikiでRドキュメントの訳をまとまているところがあったら転載して頂いて構いません。 (@yokkunsが運営していたような。。。 →無事転載されました!http://rwiki.tkul.jp/index.php?CRANTaskView) 以下、和訳です。 英語苦手なんで誤訳があったらすみません。 また、分野によって若干訳し方が違うかもしれませんがご了承下さい。 タスクビュー:実験計画(Design

    CRAN Task View: Design of Experiments & Analysis of Experimental Data (の日本語訳) - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2011/06/01
    Rの実験計画法TaskView日本語訳
  • 大規模データマイニングでのモデル探索手法:K-sample plot - データサイエンティスト上がりのDX参謀・起業家

    巨大地震が日を襲い、皆不安を感じながら生活していると思います。 そんな中せめて自分に出来ることをしようと思い、研究してきた内容をブログに記します。 サンプル数が大規模なデータでニューラルネットワークとかサポートベクターマシンとかをしたくても、 時間がかかってしょうがない!ってときに参考にしてみて下さい。 近年、特にweb関係の業界ではデータデータをいくらでも記録できるようになったため、データの規模が非常に大きくなっています。 大規模データに機械学習、マシーンラーニングを適用したいという要望は高まっています。 そういうときはデータからサンプリングして性能を確かめることが多いと思います。 ですがそんな時は、 「サンプル数はどれくらいがいいの?」 「一回やっただけじゃ真の性能は分からないよね?」 「しかもクロスバリデーションしなきゃいけないし。。」 などのような事を疑問に思うでしょう。 今回紹

    大規模データマイニングでのモデル探索手法:K-sample plot - データサイエンティスト上がりのDX参謀・起業家
  • 調査のためのサンプリング(survey sampling) - データサイエンティスト上がりのDX参謀・起業家

    調査を行うときは全数調査を行えば統計的な推測を行う必要はありませんが、どうしてもサンプリングして部分集団の解析で全体を推測したいという場合があります。 例えば国や県単位の統計を出したいけど全数調査は無理だとか、データは全てあるけどPCのスペック上一度に解析できないとか。 そんなときのサンプリング方法として次のようなものがあります。 ランダムサンプリング(標の重複なし) ブートストラップサンプリング(標の重複あり) 層別サンプリング バランスサンプリング(cube model) SASではproc surveyselectが用意されており、Rではsamplingライブラリがあります(SASのヘルプはここにあります)。 SASの場合はmethodで方法を指定できて、例えばmethod=ursでブートストラップサンプリング、またstrataを指定することで層別サンプリングをします。 Rのsa

    調査のためのサンプリング(survey sampling) - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2011/01/26
    標本抽出のためのRのパッケージ
  • 機械学習(caret package) - データサイエンティスト上がりのDX参謀・起業家

    今回はcaretパッケージの調査です。 機械学習、予測全般のモデル作成とかモデルの評価が入っているパッケージのようです。 多くの関数があるので、調査したものから並べていきます。 varImp 予測モデルを作ったときの、変数の重要度を計算する。 次のプログラムでは、花びらの長さなどの4変数を用いて、あやめの種類をk-近傍法で予測した場合に、どの変数が重要なのかを種類別に計算したもの。 #------irisデータで変数の重要度を計算 data(iris) TrainData <- iris[,1:4] TrainClasses <- iris[,5] knnFit <- train(TrainData, TrainClasses, "knn") knnImp <- varImp(knnFit) dotPlot(knnImp) 最後のdotplotで図を描いてくれるのですが、見づらいので自作プ

    機械学習(caret package) - データサイエンティスト上がりのDX参謀・起業家
    bob3
    bob3 2010/11/23
    機械学習用パッケージ“caret”
  • 1