タグ

Rに関するsleepy_yoshiのブックマーク (27)

  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • MATLAB commands in numerical Python (NumPy)

    MATLAB commands in numerical Python (NumPy) 1 Vidar Bronken Gundersen /mathesaurus.sf.net MATLAB commands in numerical Python (NumPy) Copyright c  Vidar Bronken Gundersen Permission is granted to copy, distribute and/or modify this document as long as the above attribution is kept and the resulting work is distributed under a license identical to this one. The idea of this document (and the co

  • Rゼミ/Bayes輪読 - 引越作業中

    発表ファイル An introduction to R:ch1.pdf Introduction to bayesian thinking:この内容というか、ありがたいBayesの定理の説明ch2.pdf Single-parameter models:ch3.pdf, Ch3code.txt Multiparameter models:ch4.pdf Hierarchical modeling:ch7.pdf Model comparison:ch8.pdf Using R to interface with WinBUGS:ch11.pdf

    Rゼミ/Bayes輪読 - 引越作業中
  • e1071パッケージのsvm() 手計算で分割予測値を計算する

    Rのe1071パッケージに含まれるsvm()を使用するとサポートベクターマシンによる判別分析が実行できます。 基的な使い方はこう↓ data(iris) # アヤメのデータ library(e1071) # パッケージの読み込み # svmを使って判別分析 result <- svm(Species ~ ., data=iris, probability=TRUE, kernel="polynomial", cross=1) x <- iris[, 1:4] # 説明変数部分のデータを抽出(標準化しない) # 第1引数はsvm()によって得られた結果のオブジェクト, #  第2引数は説明変数部分のデータ(非標準化データ)を指定する。 svm.dv <- function(result, x){ # ---------------------------------------------

  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
  • R で識別器を作ってみるのに必要な散布図の書き方・正規化の方法(iris データセットを例に) - 木曜不足

    PRML 4章とかを読んで、ちょっと試しに識別器を実装してみたい! というとき、初心者的にはデータセットをどこから持ってくるか、そのデータセットをどう使うか、実行結果をどうやってグラフなどに出力するか、といったあたりが悩み。 R はそのへんとてもよくできていて、すごくラクチン。 まず結構な数の著名なデータセットがあらかじめ入っている。その一つである iris dataset を例に「識別器を試作するための準備」について説明していこう。 iris dataset は、3品種(setosa, versicolor, verginica)のユリの花それぞれ50について、花の萼(がく)の長さと幅、花弁の長さと幅を測ったもの。 iris はデータがきれいに分かれているので、どんな識別器にわせてもそこそこ良い結果が出る。初心者が達成感を得るのに最適(笑)。 R での iris データセットの利用は

    R で識別器を作ってみるのに必要な散布図の書き方・正規化の方法(iris データセットを例に) - 木曜不足
  • はてなブログ | 無料ブログを作成しよう

    2024年下半期のフィルム写真たち ふと気がつくと2024年も残り僅か。 そしてふと振り返るとこのブログに掲載する写真がGRIIIで撮ったものばかりになっていたのだけど、決してフィルムに飽きたということではなく、フィルムはフィルムで淡々と撮り続けているし、モノクロもカラーネガもいつも通り自宅で…

    はてなブログ | 無料ブログを作成しよう
  • e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien

  • Rで主成分分析 - nokunoの日記

    id:n_shuyo さんがすでに詳細な実験をされていますが、明日のPRML読書会で主成分分析に入るのでirisデータで試してみました。主成分分析そのものより色つけるところのほうで苦労したり。。 result prcomp(iris[1:4]) color rgb(iris[5]=="setosa",iris[5]=="versicolor",iris[5]=="virginica") plot(result$x[,1:2], col=color) アルゴリズム的にはちょうど復習レーンでやった共分散行列の固有値を使った分析と似たようなことをやっているので復習は進めやすかったです。違うのは全部の固有値を使う代わりに大きい順からM個取るというところ。確率的主成分分析は混合分布と違って潜在変数を入れたからといって尤度が大きくなるとかいうことはなく、単に隠れ変数の値を見ることで次元削減できるよ、と

  • PRML 12章 カーネル主成分分析を R で実装(棒読み) - 木曜不足

    月曜日はPCA、火曜日は確率的PCA、水曜日はPCA with EMアルゴリズム、木曜日はベイズPCA、と続いてきた「日刊☆主成分解析」も今日で最終回。 いよいよカーネル主成分分析(kernel PCA)。 カーネル PCA は非線形な特徴ベクトルで特徴空間にデータを移したところで主成分分析を行うもの。元のデータ空間では非線形な主成分解析モデルを考えていることに相当する。 以下がカーネル主成分解析を行う R のコード。 library(kernlab) oilflow <- read.table("DataTrn.txt"); result <- kpca(oilflow) # Rならカーネル主成分分析が1行で書ける!!! oilflow.labels <- read.table("DataTrnLbls.txt"); col <- colSums(t(oilflow.labels) *

    PRML 12章 カーネル主成分分析を R で実装(棒読み) - 木曜不足
  • Probabilistic Latent Semantic Analysis : PLSA (Rで実装)

    前回のエントリからはや一ヶ月。月日が立つのは早いものです。 修論に向け、bag-of-featuresの実装をもくろんでおりますが、その一環としてPLSAを試してみました。 参考文献はこちら(リンク先pdf)。 T. Hofmann. Probabilistic latent semantic analysis. In Proceedings of the 15th Conference on Uncertainty in AI, 1999. ちょうど10年前に提案されたモデルですが、LDAの元となったり、現在でも多くの論文が発表されたりと、良い言語モデルのようです。 これをRで素直に実装したのがこちら。 plsi <- function(x, K=10, eps=0.9, max_itr=200,...){ #logsumexp logsumexp<-function(x,y,flg){

  • Rで時系列スペクトル分析 - nokunoの日記

    id:yokkunsさんが主催する第4回R勉強会のid:hamadakoichiさんの発表で議論になったのですが、スペクトル分析(フーリエ変換)において0に近い低周波の成分が出るときは、全体のトレンドを表しています、という話。 データはRに付属のUKgasを使って、spectrum関数にかけました。まずは、普通にデータ点とそのスペクトル、そしてARモデルで平滑化したスペクトルを見てみます。以下のように、低周波付近と1付近にピークがあることがわかります。 > plot(UKgas) > plot(spectrum(UKgas)) > plot(spectrum(UKgas),method="ar") そして、diff関数を使って差分を取ると、以下のようにトレンドが取り除かれ、周波数領域で見ると低周波のピークがなくなることが分かります。残ったピークは、1年周期なので季節変動を表します。 > p

  • Rの基本データ構造、よく使う関数紹介 - yasuhisa's blog

    Agenda データ構造 たくさんある>< ベクトル Rの格言 いろんなベクトルの作り方 規則的データの生成 同じデータを繰り返す ベクトルへのアクセスの方法 アクセス方法にもいろいろある まだまだあるよ、アクセス方法 行列 埋めていく順番 すでにあるベクトルを束ねる cbind rbind 行列へのアクセス方法 行列の基演算 積がやっかい 積を求めたいときは「%*%」を使うべし 逆行列を求める ちなみに 行列式 固有値 配列 リスト 例 ちなみに unlistのtips リストへのアクセス リストは結構難しい>< 例 リストの要素には名前を付けることができる Rでlistがどのように使われているか データフレーム 例 データフレームを作る データフレームに列を追加と削除 データフレームに行を追加 因子型 irisのデータでやってみる irisデータ 層別にSepal.Lengthの長さ

    Rの基本データ構造、よく使う関数紹介 - yasuhisa's blog
  • R-Source

    引き続き,R に用意されている「数値計算を行う道具」を紹介する. ニュートン法 x の関数 f(x) について,f(x) = 0 を満たす解を求める方法をニュートン法という. R では関数 uniroot() でニュートン法が行える.以下では 0 ≦ x ≦ 2 の範囲において,f(x) = x3 - 2 が 0 となる x の値を求めている. f <- function (x) x^3 - 2 # (1) f(x) を定義 uniroot(f, c(0, 2)) # (2) 範囲をc(0, 2)で指定 # 結果の root に解が入っている:解は 1.259934 となっている $root [1] 1.259934 $f.root [1] 6.088618e-05 $iter [1] 5 $estim.prec [1] 6.103516e-05

  • Rの基本パッケージ中の回帰、分散分析関数一覧 - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですR の回帰分析と分散分析関数の簡易一覧 Rは回帰分析関連の関数を多数持ち、統計解析機能の中心的位置を占める。 以下では、線形(重)回帰モデル、一般化線形モデル、非線型回帰モデル、そしていくつかの 現代的手法用の関数を紹介する。現代的な統計理論では、分散分析も線形回帰モデルとして処理することが 普通であるため、分散分析関連の関数もここで一緒に紹介するのが適当である。 線形モデルを当てはめる lm() 関数 lm() は線形モデルの当てはめに使われる。回帰分析、および一元配置 分散・共分散分析を行える(後者に付いては aov() 関数の方がより広範囲なインタフェイスを与える)。 lm(formula, data, subset, weights, na.action, method = "qr"

    sleepy_yoshi
    sleepy_yoshi 2010/03/30
    回帰手法一覧
  • irisデータをクラスタリングしてみた - nokunoの日記

    発表や議論を聞きながら試してみました。 階層的クラスタリング plot(hclust(dist(iris[1:4]))) データそのものではなく、距離行列dist()だけを使う ward法だと綺麗なデンドログラムになりやすい kmeansクラスタリング data.frame(kmeans(iris[1:4],3)[1],iris[5]) 特徴量(iris[1:4])からラベル(iris[5])を教師なしで推定します irisデータだけあって、かなりきれいに取れている> data.frame(kmeans(iris[1:4],3)[1],iris[5]) cluster Species1 1 setosa2 1 setosa3 1 setosa4 1 setosa5 1 setosa6 1 setosa7 1 setosa8 1 setosa9 1 setosa10 1 setosa(中略)

  • Rでガウス過程による分類を実装 - 遥かへのスピードランナー

    PRMLの6.4.5〜6.4.6の範囲にあるガウス過程による分類をRで実装してみました。 ソースコード全文はgithubにアップしています。 http://github.com/thorikawa/prml/blob/master/gaussian_process_classify.R ここでは例として、(1,0),(2,0),(3,0)で1、(0,1),(0,2),(0,3)で0の値を取る訓練集合を用いています。 # Training data x=list(c(1,0),c(2,0), c(3,0), c(0,1), c(0,2), c(0,3)) t=c(1,1,1,0,0,0) training_data_num <- length(x) この訓練集合とカーネル関数をもとに予測分布を導出しています。 ガウス過程においては、訓練集合から予測分布を決める(ほぼ)唯一の要素はカーネル関数

    Rでガウス過程による分類を実装 - 遥かへのスピードランナー
  • パターン認識 (Rで学ぶデータサイエンス 5) - 朱鷺の杜(IBIS)ブログ

    R については以前にも少し触れたことがありますが、最近 R に関するが雨後の竹の子のようにたくさん出てきてどれを選んだらいいかよくわからない状態です。 そんな中、共立から最近出た パターン認識 (Rで学ぶデータサイエンス 5) を入手しましたので紹介します。 著者の金森、竹之内、村田の3氏は統数研の江口先生と共に U-divergence を用いたブースティングで有名で、私も個人的に知り合いです。 には当然ブースティングも入っていますが、クラスタリング、判別分析、ロジスティック回帰、k-近傍法、LVQ, 決定木、SVM などの機械学習の基的なアルゴリズムが網羅されています。 このシリーズがややこしいのは、既刊にマシンラーニング (Rで学ぶデータサイエンス 6)というのもあることで、こちらは統計や平滑化などの著書で有名な辻谷 将明,竹澤 邦夫両先生の著によるものです。 SVM とニュー

  • Zero Intelligence Agents — Drew Conway

    I had the opportunity to spread the good word about data for good to the folks at Informatica World this year. Many thanks to the organizers for giving me a chance to speak about a topic very dear to me. I am extremely excited to announce that next week I will be joining Project Florida as their Head of Data. Project Florida is a NYC-based hardware/software startup working to harness an expansive

  • R でベイズ線形回帰の予測分布 - 木曜不足

    一番は「やっぱりR覚えよう……」としみじみ実感したことかもしれない(苦笑)。 というわけで R 始めました。 同じことやっても仕方ないので PRML 3.3.2 のベイズ線形回帰による予測分布をやってみることに。 とはいえ、昨日インストールして、今日 R-Tips を読みながら使い始めたという、おしりに立派な殻がついた ひよこちゃんなので、心優しい人が突っ込んでくれることを期待して、 step by step で書いてみる。 R-Tips を読んで、R とは ベクトルと行列の操作が全ての基。とても便利に使えるようになっている ベクトルとスカラーを演算すると、スカラーが自然にベクトルに拡張される。たとえば v + 3 は ベクトル v の全要素に 3 を加えたベクトルを返す スカラーを取る関数にベクトルを与えることもできる。たとえばベクトル (1,2,3) を log() に入れると、(l