タグ

350統計と614 Rに関するblackshadowのブックマーク (8)

  • [R] Gaussian Process Latent Variable Models (GPLVM) を使ってみる

    日々、スポットライトがあたっていない良ライブラリを見つけては紹介したいと思っています。スポットライトのあたっていない良若者も然りです。おせっかいおじさんです。今日はPCA(主成分分析)のド発展版に相当する、ガウス過程を用いたGPLVMをRからサクッと使うまでの備忘録です。 GPLVMの説明で分かりやすいのは、以下の統計数理研究所のH26年度公開講座「ガウス過程の基礎と応用」の持橋先生と大羽先生の発表資料です。 [1] 統計数理研究所 H26年度公開講座「ガウス過程の基礎と応用」 (web) 元論文は以下です。 [2] M. K. Titsias and N. D. Lawrence (2010) Bayesian Gaussian Process Latent Variable Model. Thirteenth International Conference on Artificial

    [R] Gaussian Process Latent Variable Models (GPLVM) を使ってみる
  • 統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点

    今回は「ほぼRしか使ったことがない」人間*1が、できる限り二者の優劣をくっきり述べる。 僕はほとんどRしか使ったことがない。Pythonはtfidfやクイックソートをライブラリ無しで実装した程度。 前半の主張は以下である。 「過去のRでの10回程度の解析において、Rで不十分さを感じてPythonを使った経験は1度だけ、しかも部分的にしかなかった。Rの使いにくさを感じることも最近はだいぶ無くなった。だから初学者には「事足りる」Rを勧める。」 前半の主張 今までにRでやった解析の内容は大体以下である。 (未発表)は途中で頓挫した、もしくは現在進行中/契約により詳細&解析結果の公開不可能のプロジェクトである。 [ビジネス・製造業] 米国新車価格の線形重回帰分析(授業の期末課題) [ビジネス・不動産不動産賃貸価格の線形重回帰分析(発表スライド) [ビジネス・IT] EコマースサイトのARIMA

    統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点
    blackshadow
    blackshadow 2015/06/11
    pythonは解析前のデータマージやトリミング、解析後にデータからレポートをまとめる際によく使うかな。python-pptxとxlsxwriter使えば定型レポート出力が素敵に捗る。
  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • linkcomm: an R package for the generation, visualization, and analysis of link communities in networks of arbitrary size and type

  • CRAN - Package linkcomm

    blackshadow
    blackshadow 2014/02/07
    “Link communities reveal the nested and overlapping structure in networks, and uncover the key nodes that form connections to multiple communities.”遺伝子発現データに使ったらどうなるか試してみたい
  • R による統計処理

    「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ

    blackshadow
    blackshadow 2013/06/07
    サンプルコードがとても参考になる
  • R -- テューキーの方法による多重比較

    テューキーの方法による多重比較     Last modified: Aug 03, 2009 目的 テューキーの方法による多重比較を行う。 Games-Howell 法も選択できる。 R の TukeyHSD や pairwise.t.test 関数も参照するとよい。 使用法 tukey(data, group, method=c("Tukey", "Games-Howell")) 引数 data 観察値ベクトル group 群変数ベクトル method "Tukey" のとき Tukey 法(デフォルト) "Games-Howell" のとき Games-Howell 法 ソース インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src/tukey.R", encoding="euc-

    blackshadow
    blackshadow 2013/06/07
    RでTukey-Kramer検定。Games-Howellも使える
  • 文系のための「数の可視化」(7)

    ヒストグラムと箱ヒゲ図は、両方とも分散あるいは標準偏差の状況を 視覚的に解りやすく表現したものである。 ヒストグラムは、全体的な分布の形を視覚化し、 データの偏り方を視覚化する。 一方、箱ヒゲ図は、全体的な分布の範囲を四分位で表し、 データの偏り方を視覚化する。 分散や標準偏差というのは、全体のバラツキの程度を指標化しているだけ。 それに対して、箱ヒゲ図やヒストグラムは、全体のデータの偏り方を観察できる。 また、標準偏差からの乖離の程度を見たり、 あるいは、対応する分布を考えるためにも用いる。 これらは、統計においては、非常に重要なことである。 さて、今回は、この辺りの話には深入りせず、 もう少し、データのバラツキの可視化方法について考えてみる。 「箱ヒゲ図」と「ヒストグラム」の両方の特性を併せ持った可視化方法がある。 ここで紹介する方法は、かなり魅力的。利用価値も高い。 それにも関わらず

    文系のための「数の可視化」(7)
    blackshadow
    blackshadow 2013/02/28
    violin plotよりもここで紹介しているbeeswarm+boxplotの方がいいな。データの見方に誤解の余地がないのがいい。
  • 1