タグ

rに関するy_246ajihuraiのブックマーク (10)

  • 今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ

    (※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや

    今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 統計解析ツール「R」、8年半ぶりのメジャーバージョンアップ版「R 3.0.0」リリース | OSDN Magazine

    4月3日、オープンソースの統計解析ツール「R」開発チームは最新版となる「R 3.0.0」(開発コード「Masked Marvel」)のリリースを発表した。2^31-1以上の要素を持つベクトル(Long Vector)のサポートなどが加わっている。 Rは統計や解析処理、グラフ化のための言語および実行環境。WindowsMac OS X、Linuxなどで利用できる。GNU Projectの1つで、動的型付け、オブジェクト指向などの特徴を持ち、データの操作、計算、グラフィック表示などの機能も統合されている。拡張性が高く、関連パッケージが豊富に用意されている点も特徴で、パッケージはCRAN(Comprehensive R Archive Network)から入手できる。ライセンスはGPL。 バージョン3.0.0は、2004年に公開されたR 2.0.0以来のメジャーバージョンとなる。大きな変更点と

    統計解析ツール「R」、8年半ぶりのメジャーバージョンアップ版「R 3.0.0」リリース | OSDN Magazine
  • ブログは移転しました。 因子分析における因子数選択のための基準

    Author:norimune 社会心理学を研究している大学教員です。 コミュニケーションと対人関係について研究しています。 あと階層的データ解析についても興味があります。 Twitter

  • Rが使えるフリをするための14の知識

    米国FDAで公認され、ハーバード大学やイェール大学の授業で利用されるようになり、世間での認知度が着実に上昇している統計用プログラミング環境のRだが、ユーザーなのか、ユーザーになりたいのか、ユーザーとして振舞いたいのか分からない人が増えてきた。 スノッブなユーザーとして振舞う場合は、Rの特性を語れる必要があるので、ユーザーになるよりもRへの知識や理解が必要で、実は難易度が高い行動である。それでもあえて意識の高いRユーザーとして振舞いたい人々のために、最低限求められる事のチェック・リストを用意してみた。 1. 参考文献や参考ページを押さえておく 一番大事な事だが、参考文献や参考ページを押さえておこう。公式サイトで配布されている、「R 入門」「R 言語定義」「R のデータ取り込み/出力」は持っておくべきだ。R-TipsやRjpWikiも参考になる。 2. 演算子や制御構文をマスターする 四則演算

    Rが使えるフリをするための14の知識
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • R言語で統計解析入門: 目次1 テクニカルデータプレゼンテーション  梶山 喜一郎

    Technical Data presentation in R コピペで学ぶ Rでテクニカルデータプレゼンテーション 1.基礎統計解析編 グラフィックス・リテラシ-教育: 「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア 福岡大学工学部図学教室   梶山 喜一郎 ・つまみいで,学習しないように願います. ・データの可視化を体系・系統だったスキルにするために順を追って学習する. ・統計ブームに乗っている学習者も先人に感謝の気持ちを.さらに, ・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認. A. はじめに--ここは統計・解析の必要を味わった後で読めばよい まず,統計の手続きを実行する.慣れたら統計的に考えよう. 学校の統計学を復習--買った教科書とノートをまた読むだけ a. 測定と尺度 Measurement and scale b. 記述統計学の

  • [連載] フリーソフトによるデータ解析・マイニング 第 14 回 R と重回帰分析 1.重回帰分析 説明変数が複数である回帰分析を重回帰分析と呼ぶ。重回帰分析も単回帰分析と同様に 線形と非�

    [連載] フリーソフトによるデータ解析・マイニング 第 14 回 R と重回帰分析 1.重回帰分析 説明変数が複数である回帰分析を重回帰分析と呼ぶ。重回帰分析も単回帰分析と同様に 線形と非線形に分けられるが、特別な説明がない限り、一般的には線形重回帰分析を略し て重回帰分析と言う。重回帰分析では観測データが次の式で表現できることを前提として いる。 y = a0 + a1 x1 + a2 x2 + L + an xn + ε あるいは次のように定数 a0 がない式にすることもできる。 y = a1 x1 + a2 x2 + L + an xn + ε 回帰分析で求める回帰式は次に示すような式である。 ˆ y = a0 + a1 x1 + a2 x2 + L + an xn ˆ 回帰式の係数 a0 , a1 , a2 ,L, an は単回帰の場合と同じく観測値 y と回帰式による予

  • Rで多変量解析(一般化線形モデル)〜タイタニックのデータも分析しました〜 - Issei’s Analysis 〜おとうさんの解析日記〜

    今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明

  • 1