私は仕事でマイクロアレイの統計解析をやっています。 お客様からデータを頂いて、それを統計解析にかけるわけですが、マイクロアレイのデータ解析で一番最初にやることというのは、ヒストグラムを作ることです。 データの分布っていうのは統計解析をやる上では一番最初に見ておきたいものですよね。 それで、ヒストグラムを作るわけですけど、お客様から頂くデータはほとんどの場合 Excel です。 ところが、Excel にはヒストグラムを作ってくれる機能が無いわけです。*1 そんなわけで、私の場合は統計ソフト R を使ってヒストグラムを描くわけですけど、これがもう超簡単です。 hist(data) って打つだけで、ヒストグラム作れちゃう。 階級数とか階級幅とか、なんかいい感じにしてくれる。 めんどくさい設定一切なし。 というわけで、R サイコー!ってなわけなんですが、一つだけ欠点があります。 Excel のデー
In statistics, the Bhattacharyya distance is a quantity which represents a notion of similarity between two probability distributions.[1] It is closely related to the Bhattacharyya coefficient, which is a measure of the amount of overlap between two statistical samples or populations. It is not a metric, despite being named a "distance", since it does not obey the triangle inequality. History[edit
2つのヒストグラム間の類似度を計算します.ヒストグラムの対応するビンを掛け合わせて計算します.物体同士の色ヒストグラムやエッジの勾配を累積したヒストグラムを比較して類似度を計算する事が出来ます.式は以下に示します. 実際にBhattacharyya係数を計算する際には,ヒストグラムを正規化してから比較します. 類似度は0.0から1.0までの値を取ります.正規化して二つのヒストグラムが一致する際に1.0になります. //Bhattacharyya係数を計算 //関数Bhattacharyya_Coefficient //vector1 : ヒストグラム1 //vector2 : ヒストグラム2 float Bhattacharyya_Coefficient(int vector1[], int vector2[]) { int i; //iteration変数 float vec1[NUM]
F検定(等分散の検定) まず「等分散とは?」であるが、漢字を見て分けるとおり等しく分散しているということである。つまり、それぞれの群の分布の形が似ているということである。 下にいくつかの例を示す。 独立2群の差の検定の場合、二標本t検定には「正規分布である」「等分散である」の二つの条件が必要である。そのため、たとえ正規分布していても等分散でなければ二標本t検定を使ってはいけない。 この等分散かどうかを調べるためにF検定がある。二標本t検定をする前にF検定をして等分散であることを確認する必要がある。 もし、F検定で「等分散でない」と検定されたなら二標本t検定ではなくてWelch法やMann-Whitney検定で検定しなくてはならない。 ・仮説の設定 帰無仮説(H0):「2群間の分散に差がない(等分散である)」と仮定する。 対立仮説(H1):「2群間の分散に差がある(等分散でない)」と仮定する
1■対応のない2群の比較検定---独立した2群のデータに有意差があるか?(---棒グラフが適)
二標本コルモゴロフ・スミルノフ検定 Last modified: Nov 07, 2002 両側検定では,代表値の差だけでなく,分布の違い(ちらばり,非対称度)も検出する。したがって,帰無仮説が棄却された場合に,分布の違いが検出されたのか代表値の違いが検出されたのかを検討する必要がある。 この検定手法は 2 群の分布の違いがどのようなものであっても検出してしまう。代表値の差の検定を行うためには,代表値の差以外の分布の形(散布度など)が 2 群で同じでなければならない。 分布の形が大幅に異なるならば,検定結果が有意であっても,代表値に差があることを意味するのか,分布の形が違うのか解釈できない。 代表値に差がないときに,分布が異なる場合には,この検定は分布の差の検定になる。 代表値の差を比較する変数が間隔尺度以上の場合にはカテゴリー化して検定に用いるが,カテゴリー数が少なすぎると検出力
・数値に外れ値があったときに変わるもの 平均値や標準偏差は一部の数値の変化を鋭敏に反映する→非抵抗統計量 調整平均や中黄絶対偏差は一部の数値の変化は反映しない→抵抗統計量 ・標準偏差と標準誤差の違い SDは標本データのばらつきを見ていて,SEは標本の平均値そのものがもつ信頼区間を意味する。 SEは標本平均の分散の平方根であり,これは標本数に影響を受けるため,標本数を表記するのが 普通である。実験データで同一試料を複数回測定して平均値を示すときには,抽出標本の平均値の 信頼区間として標準誤差を用いるのが正しい。一般的にはSDを使った方が直観的にとらえやすい。 ・中心極限定理と大数の法則 中心極限定理は変数が正規分布に従うか否かにかかわらず,その変数のnが十分に大きいときには その変数は正規分布に近似的に従うと見なせるというものだが,その重要なところは,正規分布 していないものでも,サンプル数
実験はギャンブルのようなもので、 どんな結果が出るかはわからないが、 実験計画を立てる。 「2群に差がない!」という帰無仮説を立てる。 群間のサンプルの選択は公平にしなければならないが、 勝率が高くなるような実験計画をデザインも必要である。 生物実験では、物理科学実験とは異なり、 得られるデータは必然的にばらつきを伴う。 測定者による誤差 ---実験技術の向上に伴い、 データの信頼度は上がる! 測定装置、あるいは測定方法による誤差 測定されるものの性質による個体差
データが正規分布にしたがうことを仮定する統計手法を利用する場合は、分析に先駆けてデータの正規性を評価しなければなりません。具体的には、ヒストグラムを描いて形状を正規分布と照らし合わせる方法と、仮説検定による方法があります。 仮説検定を利用する場合に、よく利用するのが、Shapiro-Wilk(シャピロウィルク)の正規性の検定です。この検定の帰無仮説は「変数は正規分布にしたがう」になりますので、P≧0.05となれば、帰無仮説を保留して、正規分布であることを仮定することになります。(本来は、正規分布を否定することはできない、というあいまいな意味になりますが) shapiro-wilk(シャピロウィルク)検定は多くの統計ソフトについてますが、フリーソフトのRコマンダーを利用する場合は、統計量メニューを利用することで実行できます。 以下の例では、p-value = 0.1832であり、0.05を越
5.みかけの(偽の)相関関係 相関係数が高いからといって,両者の間に因果関係などが必ずあるとは限りません.例えば,年齢を問わずに調査したら,血圧と垂直飛びに負の相関関係があるかもしれません.しかし,加齢とともに血圧は上がり,運動能力は落ちるから,この関係は見かけのものでしかありません.あるいはテレビの普及率と米の消費量を1960年代について調べたら,負の相関があるでしょう.一般に時間の絡むデータでは見かけの相関関係の出てくることがよくあります. 1) 時系列データ 1955年から1970年におけるテレビの販売数と自動車事故の数 1930年から1970年におけるタバコの消費本数と平均寿命 以上のことを調べるとどういう結果が得られるでしょうか? その結果から,どういう誤った結論が引き出せるでしょうか? 2) 年齢などに関わるデータ 血圧と原宿あるいは巣鴨で遊ぶ時間を調べたらどうなるでしょうか?
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く