この記事は abicky.net の R と SQL を対応付けてみた 〜data.table 編〜 に移行しました
先日,比治山大学で行われたHijiyama.Rで発表したスライドを,スライドシェアにアップしました。 内容は,タイトルの通り,Rのpsychパッケージで因子分析をするための方法についてまとめています。特に,SPSSなどの商用ソフトではできない,きめ細やかな分析法について触れています。 また,以下にスライドで使っているRコードをまとめて書いておきます。 library(psych) library(GPArotation) data(bfi) dat <- bfi[1:25] #MAPや情報量規準を推定できる summary(VSS(dat,n=10,use="complete.obs")) #平行分析のコード fa.parallel(cor(dat, use="na.or.complete"), n.obs = 2436, n.iter = 50) #リストワイズ削除したデータのサンプルサ
Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点をメモしておく。 永田・棟近教科書の第9章「主成分分析」をRで実行してみる まず、データの入力。 > # データの入力 > > 生徒NO <- seq(1, 10, 1) > 国語 <- c(86,71,42,62,96,39,50,78,51,89) > 英語 <- c(79,75,43,58,97,33,53,66,44,92) > 数学 <- c(67,78,39,98,61,45,64,52,76,93) > 理科 <- c(68,84,44,95,63,50,72,47,72,91) データを確認のため表示させてみる。 > 成績d
なお、分析対象となる変数の単位に注意して center, scale の 論理値を指定する必要があります。 参考例としてRのデータセット attitude を使用しています。 attitude はこのようなデータです。 主成分分析を行なう、prcomp()関数には、いくつか引数がありますが、 そのうち、center と scale は、重要となります。 なお、center はデフォルトで TRUE、 scale はデフォルトで FALSE と指定されています。 主成分分析対象となるデータ(データフレームまたは行列)の 各対象変数の単位や尺度に注意する必要があります。 prcomp()関数の上記引数を用いて各変数を正規化する、 または、主成分分析を行なう前にデータの各変数を正規化しておく 必要があります。 参考: 『Rによる統計解析』 P.197 によると、 ade4
DoDStat@d データ指向統計データベース Data oriented Database of Statistics based on Analysis Scenario/Story
RMeCabパッケージを使用して、RでMeCabを用いて、 形態素解析を行ないます。 そのために、まず MeCab をインストールする必要があります。 MeCab のインストールや設定についてはこちらに記載しております。 RMeCabパッケージを読み込みます。 RMeCabC()関数を使用して、文字列を形態素解析してみます。 文字列は何でもよいですが、 ここではとりあえず、どらちゃんの歌でも入力してみました。 こんな感じで結果が返されます。 次は、RMeCabFreq()関数を使用して、ファイルを読み込んでみます。 こちらは青空文庫から、 夏目漱石さんの「吾輩は猫である」を使用させていただいております。 青空文庫 夏目漱石 吾輩は猫である のページ 今回は関数の確認であるため特別な加工をせず、 単純にこのデータをテキストファイルにしています。 ダウンロードのところ
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
AWSソリューションアーキテクトの蒋(@uprush)です。 初期コストがなく、導入しやすいペタバイト級のデータウェアハウスAmazon Redshiftは、非常に多くの皆様に利用頂いています。そのなかでも特に多いのは、Redshiftに保存されているビッグデータをBIや可視化ツールを使った解析です。 データ解析ツールとしてRが有名です。Rは統計分析や可視化するためのオープンソースソフトウェアで、データマイニングや分析などの分野で広く使われています。 RはJDBCを利用してデータベースにアクセスすることができます。また、Redshiftは標準的なSQLが利用可能で、PostgresSQLのJDBC・ODBCドライバをそのまま使用することができるため、この2つを組み合わせるとRからRedshiftにもアクセスできます。 RedshiftとRを利用して、インタラクティブ、かつ高度なビッグデータ
Rは便利な統計解析ツールですが、処理の遅さや大規模データの扱いにくさが弱点と言われています。 このような状況に対処すべく、現在ではパフォーマンスの向上に役立つパッケージが数多く開発されています。 そこで今回は「Rとウェブの融合」をお休みして、data.tableとdplyrによる大規模データの高速処理について紹介します。 この記事では2014年7月現在の最新バージョン(data.table 1.9.2及びdplyr 0.2)を利用しています。 必要に応じてインストールして下さい。また紙面の都合で実行結果の掲載は省略しているので、手元の環境で試して実行結果を確認してみることをお勧めします。 > # パッケージのインストールと読み込み > install.packages(c("data.table", "dplyr")) > library(data.table) > library(dpl
久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R本 Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行本購入: 64人 クリック: 782回この商品を含
R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基本統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK
先月号では、相関ルール抽出に関して架空のデータを用いて説明した。その続きとして、リアルのデータを用いて説明をする。 パッケージarulesの中には幾つかのリアルのデータセットが用意されている。その中の1つがデータセットIncomeである。データセットIncomeは、サンフランシスコベイエリアの、あるショッピングモールの顧客9409人が回答したアンケート結果のデータ(IncomeESL)の中から、欠損値を含んでいるものを取り除き、整理したものである。データIncomeESLは表3に示す14項目に対する回答結果である。表の中のデータのタイプの「順序」は順序尺度、「名義」は名義尺度を指す。表3の変数の数は合計84である。データIncomeの中の、順序尺度は調整されているので表3とは異なる。例えば、表3の「収入」項目の変数の数は9になっているが、データIncomeでは2つ($0-$40,000,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く