統計に関するakihiro-matsuiのブックマーク (13)

  • 放射性崩壊と半減期

    1.放射性物質の量が指数関数で表される理由 放射能というのは、井戸型のポテンシャルの中で右往左往している核子(特にヘリウムの原子核の塊が安定)が確率論的にたまたま大きなエネルギーを得て、その井戸から飛び出すのにたとえることができる。 それは丁度、たくさんのサイコロを準備して(その数がt=0で存在する放射性元素の数N0とみなせる)、サイコロを転がす事が核子の乱雑な運動であり、それを何回も行うことが時間の経過を表すと考えることができる。すべてのサイコロを同時に、1秒に1回の割合で転がし、1の目が出たサイコロは別な元素へ崩壊したと考えて取り除くとする。そうすると となるが、この様子をグラフにすると以下の様になる。 以上の議論で崩壊の確率を1/6にしたことや、サイコロを1秒間に1回の割合で振ったことは重要でない。いずれにしても必ず の形で表される。 2.半減期と物理量の関係 上記の公式から以下の事

  • 比率の検定・独立性の検定

    1.母比率の検定 標におけるある比率が母集団の比率と等しいかどうかを検定する方法です. 標における比率をp,母集団における比率をp0とすると,帰無仮説H0: p = p0に対して検定統計量, が標準正規分布に従うことを利用して検定します.判断基準は以下のようなものでした.

  • カップルが一緒にお風呂に入る割合をベイズ推定してみた

    社会心理学会第6回春の方法論セミナー�「社会心理学者のための時系列分析入門」小森担当分.下記リンク「時系列地獄めぐりMAP.pdf」と一緒にご覧ください https://drive.google.com/file/d/1mr73_49oTWHp7yiGrqUITOWQMTgaqmFi/view?usp=sharing

    カップルが一緒にお風呂に入る割合をベイズ推定してみた
    akihiro-matsui
    akihiro-matsui 2015/03/04
    data mining(発掘とは言ってない)!
  • Matrix Factorizationとは - Qiita

    Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。 \vec{user_{1}} = (4, 5,

    Matrix Factorizationとは - Qiita
  • 回帰モデルにおける統計学的な一次式と二次式の選択方法

    統計学の教科書のF検定のところなどを読めば書いてあると思うが、線形回帰モデルにおける一次式と二次式の選択は、現代的には統計学的に、つまり機械的に行える。目視で明らかに分からないケースでは、こういう手法が便利だ。 具体例がある方が分かりやすいと思うので、乱数からケースA、Bをプロットしてみた。一次線形、二次曲線、どちらが選択されるであろうか? 1. 自由度調整済相関係数を見る 重相関係数を見てみよう。ケースAは0.646と0.661だ。しかし変数が多い方が当てはまりが良くなるので、自由度調整を行う。するとケースAは0.622と0.611。ケースBは0.887と0.911。ケースAは一次線形、ケースBは二次曲線だと予想がつく。 2. F検定を行ってみる F検定を行おう。誤差がどれぐらい減ったかを検定する方法で、大雑把に一次式が正しい確率が計算される。ケースAはF値0.61だから44.4%の確率

    回帰モデルにおける統計学的な一次式と二次式の選択方法
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • GNMT_CH17.indd

    akihiro-matsui
    akihiro-matsui 2013/02/23
    PCA軸上の有為な要素を検定するのは、実験条件が増えると期待値を出すが難しくなりパーミューテション・テストが有効な方法になってくる。
  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC115254/pdf/gb-2002-3-4-research0019.pdf

    akihiro-matsui
    akihiro-matsui 2013/02/22
    PCA軸上で有為な差のある要素をパーミューテイションテストで探す
  • R -- 二元配置分散分析

    二元配置分散分析     Last modified: Dec 13, 2004 目的 二元配置分散分析を行う 使用法 twoway.anova(x, a, b) 引数 x 測定値 a 要因 A を表す自然数(1から始まる数) b 要因 B を表す自然数(1から始まる数) ソース インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src/twoway_anova.R", encoding="euc-jp") # 二元配置分散分析 twoway.anova <- function( x, # データベクトル a, # 要因 A の factor ベクトル b) # 要因 B の factor ベクトル { name.a <- deparse(substitute(a)) name.b <-

  • 主成分得点の効用

    akihiro-matsui
    akihiro-matsui 2013/02/21
    ちょっと、自分が欲しい検定と違う。普通、2グループの対応のあるう複数の測定値がある場合はベクトルを検定するが、PCAのPC1軸でざっくり検定していまう。
  • R -- 2 群のヒストグラムを描く

    2 群のヒストグラムを描く     Last modified: Aug 27, 2007 目的 2 群のヒストグラムを描く。 使用法 hist2(x1, x2, brks=NULL, ...) 引数 x1 第一群のデータ x2 第二群のデータ brks 階級分割点(NULL のときは適切に計算) ... barplot に引き渡す任意の引数 ソース インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src/hist2.R", encoding="euc-jp") # 2 群のヒストグラム hist2 <- function( x1, # 第一群のデータ x2, # 第二群のデータ brks=NULL, # 階級分割点 ...) # barplot に引き渡す任意の引数 { if (is.

  • http://ibis.tau.ac.il/twiki/pub/Bioinformatics/MicroarrayVarda2009/Expression_console_Hands_On.pdf

  • Cross-platform analysis of cancer microarray data improves gene expression based classification of phenotypes - PubMed

    akihiro-matsui
    akihiro-matsui 2010/07/13
    異なるプラットホームのマイクロアレイをまとめて、SVMでクラスター化する
  • 1