Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点をメモしておく。 永田・棟近教科書の第9章「主成分分析」をRで実行してみる まず、データの入力。 > # データの入力 > > 生徒NO <- seq(1, 10, 1) > 国語 <- c(86,71,42,62,96,39,50,78,51,89) > 英語 <- c(79,75,43,58,97,33,53,66,44,92) > 数学 <- c(67,78,39,98,61,45,64,52,76,93) > 理科 <- c(68,84,44,95,63,50,72,47,72,91) データを確認のため表示させてみる。 > 成績d
この場合、長さ、幅、重さ……などの測定値を 特徴量 、製造所IDを ラベル として何らかの機械学習をすることが考えられます。ただ、多くの場合、この特徴量が多すぎるといった状況が発生します。中には、「製造に要した時間」のようなおおよそ関係なさそうな測定値が入っていたり、重さと体積のような、明らかに相関がありそうなものが入っていたりします。 人間であれば「この特徴量は関係なさそうだな」とあらかじめアタリをつけて表から落としたりもできますが、基本的に機械学習アルゴリズムは与えられた特徴量を公平に評価します。その結果、ラベルと論理的に関係がない特徴量にまで相関を見出してしまう……なんてことも起こってしまいます。 また、特徴量どうしに相関がある場合、それらのモデル内での役割はほぼ同じであり、そこまで多くの情報を持っていることにはなりません。極端な例を挙げると、「長さ」のカラムが表に2つあってまったく
This document explains PCA, clustering, LFDA and MDS related plotting using {ggplot2} and {ggfortify}. {ggfortify} let {ggplot2} know how to interpret PCA objects. After loading {ggfortify}, you can use ggplot2::autoplot function for stats::prcomp and stats::princomp objects. library(ggfortify) df <- iris[1:4] pca_res <- prcomp(df, scale. = TRUE) autoplot(pca_res) PCA result should only contains n
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く