タグ

Rに関するk_yonのブックマーク (15)

  • Rとカテゴリカルデータの操作と統計量

    欄で説明したデータ解析の方法のほとんどは、量的なデータを対象にしたものである。今月号から数回の誌面を用いてカテゴリカルデータ(categorical data)について説明を行うことにする。 我々の周りには多くの物事の性質を数え上げる計数(count)データがある。例えば、性別(男、女)、血液型(A,B,O,AB)やアンケート調査票の中の質問における選択肢などを集計したデータは、いずれも計数データである。このような計数データをカテゴリカルデータと呼び、性別や血液型などのカテゴリーをカテゴリカル変数(categorical variable, 略して変数)と呼ぶ。 カテゴリカル変数は、データの尺度によって2種類に分けることができる。1つはカテゴリカル変数が順序関係を持たない性別や血液型などのような名義((nominal)尺度データであり、もう1つはアンケート調査質問票などでよく用いられ

    k_yon
    k_yon 2014/04/03
    カテゴリカルデータと独立性の検定
  • Rによる箱ひげ図の描き方

    箱ひげ図はコマンド boxplot にて作成する。使い方は大きく分けて3通りある。ひとつ目は、boxplot(ベクトル1, ベクトル2, ベクトル3, ...) のように、各項目のデータが格納されているベクトル形式の変数を直接指定する方法、ふたつ目は、boxplot(リスト) のように、各項目のデータが格納されているリスト形式 (または、行列形式) の変数を読み込む方法、最後は、boxplot(value ~ group, data=データフレーム) のように読み込むデータフレームと項目およびそのデータを式で指定する方法である。 以下のようなそれぞれが50要素からなるデータA、BおよびCが得られたとき、箱ひげ図を描く。 0.741 0.546 0.765 0.737 0.875 0.749 0.701 0.726 0.705 0.647 0.700 0.650 0.622 0.603 0.

    Rによる箱ひげ図の描き方
    k_yon
    k_yon 2014/04/03
    箱ひげ図
  • RFinanceYJを使用して、東証一部の株価を一通り取得してみる。 - yagi-kの日記

    RFinanceYJパッケージを使用して、日株のデータを色々取得してみる練習。 まずは、下記の東証のHPから上場銘柄一覧の.xlsファイルをダウンロード。 http://www.tse.or.jp/market/data/listed_companies/index.html とりあえず、今回は東証一部のみに絞ってみるので、下記をダウンロード。 http://www.tse.or.jp/market/data/listed_companies/b7gje60000023aiz-att/first-d-j.xls ダウンロードしたファイルをRのワーキングディレクトリに移動して、 > require (RFinanceYJ) # xlsファイルを直接読み込むための、read.xls関数を含むパッケージ > require (gregmisc) > stocklist.j <- read.xl

    RFinanceYJを使用して、東証一部の株価を一通り取得してみる。 - yagi-kの日記
    k_yon
    k_yon 2013/11/26
  • EBImageを使った画像処理 - もうカツ丼でいいよな

    使い方とか. 参考 http://www.eml.ele.cst.nihon-u.ac.jp/~momma/wiki/wiki.cgi/R/R%E3%81%A7%E7%94%BB%E5%83%8F%E8%A7%A3%E6%9E%90(EBImage%E7%B7%A8).html Bioconductor - EBImage (development version) インストール source("http://bioconductor.org/biocLite.R") biocLite("EBImage") このほかにImageMagicとgtkが必要. 以下http://www.bioconductor.org/packages/devel/bioc/html/EBImage.htmlにあるIntroduction to EBImageを読んでメモしたもの.長いです.気が向いたら目次付け

    EBImageを使った画像処理 - もうカツ丼でいいよな
  • Small Data Scientist Memorandum 

    2013/6/12にtwitter上の#tokyorで面白い質問がありました(●Q1と●Q2)。辛抱できず自分で解決したついでに、今後も役に立ちそうな確率変数の変数変換について少しまとめてみました。 ●Q1. 以下は1.00…が出力されます。なぜですか? sum 10000回を十分大きな数とみなせば、これは変数の平均値が出力されると解釈できます。ここでは平均0, 標準偏差1の正規分布からランダムに抽出された5サンプルであることに注意して式変形すると、 となります。式の変形の途中にあるは母集団の標準偏差を表します。今回は1です。ここで、は教科書に載っているように自由度4のカイ2乗分布に従います(この証明もそんなに難しくなく重要ですが今回はパスします)。また、自由度4のカイ2乗分布の平均値は4です。よっての平均値は、 となります。Q1.の最終的な出力は1となります。 ●Q2. 以下は0.94…

    Small Data Scientist Memorandum 
  • 指数分布とポアソン分布のいけない関係

    ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す

    指数分布とポアソン分布のいけない関係
  • Welcome to a Little Book of R for Multivariate Analysis! — Multivariate Analysis 0.1 documentation

    Welcome to a Little Book of R for Multivariate Analysis!¶ By Avril Coghlan, Wellcome Trust Sanger Institute, Cambridge, U.K. Email: alc@sanger.ac.uk This is a simple introduction to multivariate analysis using the R statistics software. There is a pdf version of this booklet available at: https://media.readthedocs.org/pdf/little-book-of-r-for-multivariate-analysis/latest/little-book-of-r-for-multi

  • 時系列データの解析(厚労省公開の医療費データ) - データサイエンティスト上がりのDX参謀・起業家

    このに沿って時系列データの解析方法をまとめました。 Rによる時系列分析入門 作者: 田中孝文出版社/メーカー: シーエーピー出版発売日: 2008/06/01メディア: 単行購入: 12人 クリック: 113回この商品を含むブログ (19件) を見る サンプルデータを使っても面白くないので、厚労省が公開している医療費のデータを使いました。 厚労省の医療費データベース 例によってこのデータはエクセルで公開されていて、そのまま解析できる状態じゃありません。 今回は入院の総医療費だけを扱ったので、その部分だけ加工してcsvにしました。 一応、加工したデータはダウンロードのページに置いてます。 それでは、解析していきます。 まずはデータ読み込みと加工。 Iryouhi <- read.csv("医療費.csv", as.is = T) Nyuin <- ts(Iryouhi[, 2], fre

    時系列データの解析(厚労省公開の医療費データ) - データサイエンティスト上がりのDX参謀・起業家
  • Rで多変量解析(一般化線形モデル)〜タイタニックのデータも分析しました〜 - Issei’s Analysis 〜おとうさんの解析日記〜

    今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明

  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • xtsパッケージで時系列解析

    Presentation document at Tokyo.R meeting on 2nd July 2011. Rのxts(zoo)パッケージで時系列を捌くためのノウハウ(データ作成、便利関数)を紹介。

    xtsパッケージで時系列解析
    k_yon
    k_yon 2013/05/29
  • トレーディング戦略をRでバックテストする方法 - My Life as a Mock Quant

    なかなか面白い&有用な記事を見つけたので日語に翻訳します。意訳がいっぱいあったり、完訳ではない点ご勘弁。ちなみにバックテストってのは「あるトレーディング戦略が過去どの程度有効だったのかを確かめる事」という意味。この記事で紹介されているステップ1をRFinanceYJを使って日のデータを取得するようにして、ステップ2をSVMなりに変えてみれば日市場での機械学習を使ったトレーディング戦略を作ったりできるわけです。 【引用元】 FOSS Trading: How to backtest a strategy in R 【訳者注意】 家のサイトではどうも開発版のパッケージにのみ存在する関数を使用しているようですが、それだと簡単にサンプル動かせないんでここではその点適当に改変しています。その関係で記事・コードに修正を入れています。著作権は向こう持ちで。 【以下翻訳】 この記事は「Excel

    トレーディング戦略をRでバックテストする方法 - My Life as a Mock Quant
    k_yon
    k_yon 2013/05/29
  • xtsライブラリを使ってみる−1 - My Life as a Mock Quant

    (その2はコチラ) 先日、R勉強会に参加させていただいたときに 「時系列のデータ構造を扱う際にはxtsパッケージが便利なのではないか?」 というアドバイスをいただいたので使ってみる。 まずはマニュアルのほぼ写経コード library(xts) data(sample_matrix) #その名の通り行列形式でデータが入っている head(sample_matrix) #xtsオブジェクトへ! sample.xts <- as.xts(sample_matrix, descr='テストデータです') #zooパッケージのクラスとxtsクラスの属性を持っているようだ class(sample.xts) str(sample.xts) #headを使うとdescrの属性の値は見えないので、無理やりだしてみる。 head(sample.xts) attr(sample.xts,'descr') #い

    xtsライブラリを使ってみる−1 - My Life as a Mock Quant
  • Polytomous (Multinomial) Logistic Regression

    Content Preview Arcu felis bibendum ut tristique et egestas quis: Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris Duis aute irure dolor in reprehenderit in voluptate Excepteur sint occaecat cupidatat non proident Lorem ipsum dolor sit amet, consectetur adipisicing elit. Odit molestiae mollitia laudantium assumenda nam eaque, excepturi, soluta, perspiciatis cupiditate sapiente, a

    k_yon
    k_yon 2013/05/10
    Identifying Seasonal Models and R Code
  • TIMSAC for R package

    1. はじめに TIMSAC(TIMe Series Analysis and Control program)は,統計数理研究所で開発された時系列データの解析,予測,制御のための 総合的プログラムパッケージである.オリジナルTIMSAC(TIMSAC-72)は1972年に発表され,その後,TIMSACシリーズとしてTIMSAC-74,TIMSAC-78,TIMSAC-84が Computer Science Monograph に発表された.工業プロセスの最適制御,経済変動の分析等広い分野で実際に利用されている.TIMSACの特徴としては,情報量規準の考え方を用いた時系列解析プログラムであることが挙げられる.TIMSAC-72ではFPE (Final Prediction Error),TIMSAC-74以降ではAIC (Akaike Information Criterion),TIM

  • 1