はじめに このページでは R を用いた統計分析の基本を解説しています。 目次 RとRStudioの導入 Google ColaboratoryでR言語を使う Rのデータ構造 データセットの作成と加工 その他のRの概念 図の作成 基本的な統計分析 回帰分析 因子分析 テスト課題 画面上部の左端のアイコンを押すか、キーボードの S キーを押すとメニューの表示・非表示を切り替えることができます。
R Advent Calendar 2012の6日目です. Rのデータセットでもっとも有名なのが,irisではないでしょうか.FisherもしくはAndersonのアヤメの計測データですね.しかし,有名なわりには,このデータセットの正体はそれほどよく知られていないように思います (私もよく知らずに使っていました). そこで,このエントリでは,どんな研究でirisデータセットが報告されたのか,元の論文2報について,その概要を述べてみたいと思います ※1. アヤメIris属 (アヤメ属) はアヤメ科に含まれる属のうちのひとつで,世界の温帯に150種が知られているようです (アヤメ属 - Wikipedia).irisデータセットに含まれるIris setosa,Iris versicolor,Iris virginicaは,このアヤメ属に含まれる植物のうちの3種です. どんな論文で報告されたの
Rにてウィルコクソンの順位和検定 (Wilcoxon rank sum test) を行う。本検定法は、ウィルコクソンの符号順位検定 (Wilcoxon signed rank test) とは別の検定法である。パッケージ"exactRankTests"に搭載されている関数"wilcox.exact"にて検定する。Rにデフォルトでインストールされている"stats"パッケージには"wilcox.test"が搭載されているが、この関数より"wilcox.exact"が使い勝手が良い。"wilcox.test"と違い、"wilcox.exact"では、正確なp値が計算される。 まず、Rを起動させ、以下のコマンドにてパッケージをインストールし、そのパッケージを読み込む。
Rにてバートレット検定 (Bartlett test) を行う。バートレット検定は、多群のデータの等分散性または分散の一様性、すなわち、各データの分散が等しいかどうかを検定する手法のひとつである。2群間の等分散性を検定するF検定 (F-test) に対し、バートレット検定は複数群のデータの等分散性を扱う。イギリスの統計学者、Maurice Stevenson Bartlettによって考案された。データ間の等分散性は分散分析をはじめとする多くの検定で要求される。Rでは、コマンド 'bartlett.test' にて実行することができる。 以下の、サンプル数がそれぞれ、'12, 10, 12, 11' からなるデータAからDが得られたときの各データ間における分散が等しいか否かをバートレット検定にて解析する。帰無仮説 (H0) は各群の母分散は全て等しいことである。 データA
Rにて一元配置分散分析 (one-way ANOVA) を行う。一元配置分散分析とは、例えば "数学のテストの得点" といったような1要因に対して、"ある学校のある学年のクラスA、BおよびCの平均点に差があるかどうか" というような3群以上の標本の平均値の差の有無を検定する手法である。Rでは、コマンド "oneway.test"、または、コマンド "aov" および "anova" の組み合わせで一元配置分散分析を実行することができる。"aov" と "anova" による分散分析では1要因に限らず、2要因の二元配置分散分析等も可能である。 ある要因 (数学のテストの点数) に対して、ある4群 (クラスA, B, C, D) にて以下の観測値 (各生徒の得点) が得られたときの分散分析を行う。帰無仮説 (H0) は全ての群間において平均値に差がないことである。 データA
Rにてルビーン検定 (Levene test) を行う。日本語表記では、ルベーン検定とかレーベン検定とされる場合もある。ルビーン検定は得られた複数群のデータ間に等分散性、分散の一様性が仮定できるかどうかを検定する手法である。アメリカの統計学者、Howard Leveneによって開発された。等分散性の検定には、バートレット検定やハートレイ検定等があるが、ルビーン検定はこれらの検定法と比較し、得られたデータが正規分布に従わないことが想定される場合にも頑健な結果を返すとされており、そのような場合には他の検定法よりルビーン検定を使用するのが好ましい。Rにおいては、'car' パッケージの関数 'leveneTest' にて実行することができる。パッケージ 'car' には、その他にも 'levene.test' という関数が用意されているが、こちらはサポートが終了しているため、やはり'levene
Rで日本語の文字を含んだ図をepsで出力しようとすると、うまく反映されないはずです。 解決策として今まで僕は、次のようなのをつかってきました。 日本語をやめて英語で表現する ローマ字で表現する .emf などで出力してからコンバータなどで .eps に変換する 最初のはいやなかんじで、とくに私の研究の専門的にも思想的にも、あまりやりたくない(※日本語防衛論者(笑)じゃないよ!)。 2番目のは、視認性が低い、読み慣れない、正書法がよくわからない。 3番目は確実だけれどとにかくめんどうくさい。 というわけで、日本語でやる方法を調べてみました。 見つかったのはこのページ http://www.okada.jp.org/RWiki/?R%A4%CB%A4%E8%A4%EB%A5%DD%A5%B9%A5%C8%A5%B9%A5%AF%A5%EA%A5%D7%A5%C8%B2%E8%C1%FC%A4%
伴走資料はこちら イントロダクション 離散的データ 観測現象は、カテゴリカルに記録される。たとえば現象を観測すると、複数のカテゴリがあって、そのいずれかである。 ベイズ を観測したらだった。そのあとに影響されるを観測したらだった。そのあとに影響されるを観測したらだった。 ととの間には関係があり、その関係は、が観測されたときにが観測される確率として知られる。また、ととの間も同様である。 ととの関係は、個の条件付き確率, , がにて成り立っている。ただし、は、のときに、が起きる確率である。 マルコフ連鎖 の影響を受けてが起きるとき、の影響は受けないものとする。これはマルコフ連鎖の無記憶性(直前の影響しか受けない)ことに相当する。 Log linear model 分割表検定では、Peasonのカイ自乗統計量から独立性の検定をする場合と、対立仮説と帰無仮説とに対応する対数尤度から求められる値を用
RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki です2009-12-21 トップ頁へのコメント Rcmdrの機能 他のパッケージとの比較 CRANパッケージリスト 2009-12-20 RでGIS spdep(空間従属性)パッケージ中のオブジェクト一覧 2009-12-19 grid パッケージ事始 Q&A (初級者コース)/11 spatstat(空間ポイント・パターン分析)パッケージ中のオブジェクト一覧 2009-12-18 QGIS で R R running on mobile gadgets 2009-12-14 R史 GoogleEarthとR 2009-12-11 R掲示板 2009-12-09 Rでベイズ統計学 ESS 2009-12-07 R AnalyticFlow Q&A (中級者コース) 2009-12-05 R本リス
はじめてきた方はサイト案内やサイトマップをご覧ください。 管理人Twitter始めました。一部のコードはGitHubで管理するようにしました。 プライバシーポリシーはこちらです。 ★2022年度の統計学の講義資料はこちらから閲覧できます。 ●書籍情報:Pythonではじめる時系列分析入門 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:Pythonで学ぶあたらしい統計学の教科書 [第2版] 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:意思決定分析と予測の活用 基礎理論からPython実装まで 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:R言語ではじめるプログラミングとデータ分析 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:RとS
★新サイト完成しました! 3秒後に自動的に移動します 変わらない方は こちらからどうぞ http://logics-of-blue.com/%E3%83%A2%E3%83%87%E3%83%AB%E9%81%B8%E6%8A%9E_%E7%90%86%E8%AB%96%E7%B7%A8/ 予測のためには、実世界をモデル化しなければなり ません。モデル化することさえできれば、あとは、そのモデルに数値を突っ込めば、勝手に予測が出来てしまいます。 前回は説明変数が一つだけでした。要するに、一つ の値からまた別の値を予測すると言うだけだったので、どのモデルにすればいいのか、どの変数を使って予測すればいいのか、ということを考えなくても済んだ 訳です。 しかし、実際に予測をする場合は多くの変数を用い たほうが当てはまりもよくなるし、実用的でしょう。 どの変数を用いて、どの変数を使わないのか、それを決め
ヒストグラムとカーネル密度推定についてすごく簡単にまとめました.Kashiwa.R#4で発表する内容を文章にしたものです. 使用するデータセットまずここでは,faithful データセットの,eruption を例に用います. イエローストーン国立公園にあるOld Faithful間欠泉の噴出時間 (分) だそうです. # データセットの確認 head(faithful) # 噴出時間データのみを抜き出す fe <- faithful$eruption まず度数分布を見てみると以下のようになります. stem(fe) The decimal point is 1 digit(s) to the left of the | 16 | 070355555588 18 | 000022233333335577777777888822335777888 20 | 00002223378800035
★新サイト完成しました! 3秒後に自動的に移動します 変わらない方は こちらからどうぞ http://logics-of-blue.com/%E5%8D%98%E5%9B%9E%E5%B8%B0/ 単回帰モデルを使った簡単な予測モデルのプログラ ムソースコードを展示しています。 回帰 モデルの組み立て方から信頼区間や予測区間の求め方まで。 回帰分析って線を引っ張る以外のこともできるんですね。 単回帰分析とは 回帰分 析とは、一言で言ってしまうとデータの散布図に線を引っ張るメソッドですね。Excelなどでもやったことのある方は多いはず。 しかし、信頼区間を求めようと思ったら、Excelではとたんに面倒な計算をする羽目になってしまいます。Excelでは線を引っ張っておしまいなとこ ろを、Rをつかってもうちょっとマシな予測を出してみます。 サンプルデータ 下手に本物のデータを使うと著作権が怖いの
Rにてコルモゴロフ・スミルノフ検定 (Kolmogorov-Smirnov test) を行う。コルモゴロフ・スミルノフ検定は得られた2つのデータ間の確率分布の相違の検定、または、1データにおける確率分布の正規性を行う検定法である。旧ソビエト連邦の数学者Andrey Nikolaevich KolmogorovとNikolai Vasilyevich Smirnovによって開発された。スチューデントのt検定等をはじめとする多くの検定手法において標本分布 (データ) が正規分布に従うことが仮定されていることを考慮すると、得られたデータが正規分布に従うか否かは、その後の統計検定を行うにあたり非常に大きな意味を持つ。その観点からコルモゴロフ・スミルノフ検定は重要な検定法のひとつであるといえる。Rでは、デフォルトでインストールされているパッケージの関数 'ks.test' にて実行する。 以下のよ
RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですEPS形式の出力 ここではグラフィックウィンドウに描画されているグラフを EPS 形式で出力する際のオプションの実際を紹介します。eps ファイルの加工方法についてはこちら。作成したepsファイルをLaTeXに取り込む方法は、こちら EPS形式の出力コマンド † > dev.copy2eps(file="ファイル名.eps") 表示されているグラフィックが EPSF 形式で保存されます。dev.copy2epsは内部的に、 > dev.copy(device=postscript,file="ファイル名.eps", onefile=FALSE,horizontal=FALSE,paper=special) と同じことをしている。いちいちオプションを指定するのは面倒なので、dev.copy2e
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く