2013年2月23日のブックマーク (6件)

  • R統計解析入門: 「スタック・アンスタック」データフレームの表現形式とデータ変換 梶山 喜一郎

    「アンスタック形式」と「スタック形式」のデータフレームの表現形式 統計に用いる関数が要求するデータフレームの表現形式は,下の表に示す「アンスタック形式」と「スタック形式」がある. 変数ごとに測定値を列として整理した表形式の「アンスタック形式」と データを群(カテゴリ)とその測定値に,二列(二変数)の表形式にまとめた「スタック形式」である. 「アンスタック形式」の各列の変数名は,「スタック形式」では群のカテゴリーに置き換える. データの情報は同じなので2つの形式は stack 関数と unstack 関数で互いにデータ変換できる.

    akihiro-matsui
    akihiro-matsui 2013/02/23
    データフレームのスタック、アンスタック形式
  • 階段関数、経験分布関数 - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki です階段関数、経験分布関数 (グラフィックス参考実例集に戻る。Rのグラフィックスパラメータを参照する。) R の標準ライブラリの一つである stepfun は階段関数を扱うライブラリで、特に経験分布関数の作図ができる。関数 stepfun, ecdf は関数を返す関数である。plot 関数はクラス stepfun (階段状関数) とクラス ecdf (経験分布関数) のオブジェクトからそのグラフを描く(実際は関数 plot.stepfun が呼び出される)。 データから経験分布関数を計算する関数 ecdf() † R の標準ライブラリの一つである stepfun は階段関数を扱うライブラリで、特に経験分布関数の作図ができる。 用法 ecdf(x) 数値データをクラス "ecdf" のオブジェク

  • ブートストラップ法 - 元データ分析の会社で働いていた人の四方山話

    諸般の事情でブートストラップ法を利用する可能性が高いので復習をかねて書きます。 こちらがすごくまとまっていたので、参考にしました。 Web上であまり情報が見つからなかったのは探し方が悪かったのかな?? とりあえず パラメトリック・ブートストラップ法と、ノンパラメトリック・ブートストラップ法がある。 有名、というかよく使われるのはノンパラメトリック・ブートストラップ法の方で、今回書いているのもたぶんノンパラメトリック・ブートストラップの方 ブートストラップ法とは 標集団からリサンプリングを繰り返し(重複を許す)、得られた新たな標集団(ブートストラップ標)の統計量の分布が、母集団の分布に近いものになる、という性質を利用して、母集団に対する事前知識なし(確率密度関数を使わず)に、母集団の統計量を推定する手法です。 確認 Rのリハビリをかねつつ、確認してみます。 適当に与えたデータ(1〜10

  • Rとブートストラップ

    統計学の主な目的の1つは、標データを用いて母集団の性質を推測することである。同じ母集団から抽出した標であっても、無作為であるため標を構成する要素、標のサイズが異なると、それらの統計量(比率、平均、分散など)は異なる。従って、標データを用いて母集団の性質を推測する際には常に誤差が伴う。 正規分布N(μ,σ2)の母集団から抽出した大きさnの無作為標の平均はN(μ,σ2/n)に従うことが知られている。σは一定の条件のもとでは標の不偏標準偏差を用いることも可能である。このように正規分布、t分布、x2分布などの確率分布を用いて母数やモデルの推定およびその推定の誤差を計算することができる。しかし、問題によっては確率分布を仮定できないケースも少なくない。そこで、1970年代にエフロン(Efron)は確率分布の性質に頼らないブートストラップ(bootstrap)という方法を提唱した。ブート

  • 小標本問題と t検定 - ほくそ笑む

    統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標問題」というのを解決するために考案されました。 小標問題とは、正規分布の平均値の検定に正規分布を用いると、サンプルサイズが小さい場合にαエラーを過小評価してしまうという問題です。 今日はこの小標問題とそれを解決する t検定について R によるシミュレーションを使って説明してみたいと思います。 正規分布の平均値の検定 確率変数 が正規分布に従うとき、その平均値もまた、正規分布に従います。 数式で書くと、 となります。(分散が されていることに注意) なので、正規分布の平均値の検定には正規分布を使用すれば良いように思われます。 これを R でシミュレートしてみましょう。 # 正規分布を使用して平均値が 0 と等しいかの p値を求める norm

    小標本問題と t検定 - ほくそ笑む
  • GNMT_CH17.indd

    akihiro-matsui
    akihiro-matsui 2013/02/23
    PCA軸上の有為な要素を検定するのは、実験条件が増えると期待値を出すが難しくなりパーミューテション・テストが有効な方法になってくる。