タグ

ブックマーク / hoxo-m.hatenablog.com (9)

  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む

    【宣伝】2016/09/14 このページに来た方へ。あなたが求めているはこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。 【宣伝終】 最近、ベイズ統計の入門書がたくさん出版されているので、ここで一旦まとめてみようと思います。 1. 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 (2015/6/25) 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2015/06/25メディア: 単行この商品を含むブログ (6件) を見る データ分析業界ではかなり有名な豊田秀樹先生のです

    ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む
  • トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む

    LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデルであるため、Perplexity の定義は明確です。 一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。 記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。 例えば、トピックが { farmers, farm, food

    トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む
  • log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む

    データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次のように作っています。 N <- 100 x <- runif(N, min = 1, max = 2) y <- exp(x + rnorm(N, sd = 0.3)) data <- data.frame(x, y) それでは、log 変換しないバージョンと、するバージョンでモデルを作成して、AIC を比較してみましょう。 model <- lm(y ~ x, data) model.log <- lm(log(y) ~ x, data) aic <- AIC(model, model.log) print(aic) ## df AIC

    log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む
  • やったー!僕にもANOVAの原理がわかったよ! - ほくそ笑む

    以前のエントリにも書いたけど、マイクロアレイ発現解析は基的に2つのグループ間での発現量の比較をします。例えば「病気の人 v.s. 健康な人」とか「薬を飲んだ人 v.s. 飲んでない人」とかです。こういうときは2群間検定(t検定とか)を使えば発現量の差が有意な遺伝子を特定できます。 しかし、たまに癌のグレード(重症度)とかのデータでコントロール(健常者)のデータが無いときがあります。このとき比較したいのは「グレード1 v.s. グレード2 v.s. グレード3」という、3つのグループ間で発現量を比較することになります。 3つのグループ間での発現量を比較するときは、t検定のような2群間比較の手法を「グループ1 v.s. グループ2」「グループ2 v.s. グループ3」「グループ3 v.s. グループ1」のように複数回行えばできるのですが、検定には間違う確率が常に付きまとうので、何度も検定を繰

    やったー!僕にもANOVAの原理がわかったよ! - ほくそ笑む
    petite_blue
    petite_blue 2012/12/23
    ANOVA
  • パターン認識における識別手法のてきとーなまとめ - ほくそ笑む

    Nearest Neighbor 法(Wikipedia) 最も単純な方法。区分的線形分離。精度は悪い。 パーセプトロン(Wikipedia) 学習データが線形分離可能な場合のみ有効。 Widrow-Hoff 学習データが線形分離不可能な場合に、誤差が最小になるように線形分離。 学習データが線形分離可能な場合でも、誤識別なく分類できる保証はないのが欠点。 SVM(Support Vector Machine)(Wikipedia) マージン最大になるように線形分離する。 線形分離不可能な場合はカーネルを使って高次元で線形分離。 精度は良いが、速度が遅い。 ニューラルネットワーク(Wikipedia) 非線形分離。 うまくカスタマイズすればいくらでも精度が良くなるが、そのカスタマイズが難しい。 ベイズ識別 背景となるデータ分布を推定し、未知データに対する誤識別の確率が最小になるようにする。

    パターン認識における識別手法のてきとーなまとめ - ほくそ笑む
  • 因子分析メモ - ほくそ笑む

    (※自分用メモです) 因子分析は、観測された変数(顕在変数)から、その因子である観測されていない変数(潜在変数)との関連を明らかにする解析手法である。 因子分析モデル 因子分析では、次の回帰モデルを仮定する。 ここで、 は顕在変数、 は因子負荷量、 は潜在変数(因子)、 は独自変量である。 上記回帰モデルから、次が成り立つ。 ここで、 は の共分散行列、 は の分散を対角成分に持つ行列(独自分散行列)である。 因子分析では、この式を満たす および を推定する。 推定方法 推定の方法は大きく2つある。 主因子分析 最尤因子分析 1.主因子分析は、固有値と固有ベクトルを用いた手法であり、あまり使われない。 2.最尤因子分析は、因子分析モデルにおける行列の推定量の差 を次のように定義し、 これを最小にすることにより推定する( は顕在変数の数、つまり の次数)。 を最小にすることは、尤度関数 を最

    petite_blue
    petite_blue 2012/12/23
    因子分析
  • 主座標分析について簡単に紹介するよ! - ほくそ笑む

    今日は主座標分析(Principal Coordinate Analysis; PCoA)の紹介を簡単にしたいと思います。 主座標分析は古典的多次元尺度構成法(Classical Multidimensional Scaling; CMDS)とも呼ばれる統計解析手法です。 この解析手法を使用する主な目的は、高次元のデータを2次元や3次元に落として視覚化したいという時に使います。 以前紹介した主成分分析と同じような感じですね。*1 主成分分析との違いを簡単に言うと、主成分分析はユークリッド距離をなるべく保ちながら低次元に落とす方法ですが、主座標分析はユークリッド距離だけでなく、他の距離や類似度*2が使えるという点にあります。 例えば、ユークリッド距離の代わりに相関係数を使えば、相関の高いもの同士が近い配置になるようなプロットを作ることが可能です。 データを用意する さっそくやってみたいのです

    主座標分析について簡単に紹介するよ! - ほくそ笑む
  • 交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む

    分類器(識別器)のモデルを評価する手法に交差検証(クロスバリデーション)があります。 交差検証を行うには、データをいくつに分割するかを表す k の値を決めてあげなければなりません。 SVM のチューニングのしかた(1) において、交差検証の k の値を決めるとき、僕は個人的に k = 1 + log(n)/log(2) という式を用いていると書きました。 この式は、知っている人ならわかると思いますが、スタージェスの公式です。 スタージェスの公式は、ヒストグラムを描く際にサンプル数から階級数を決めるのに便利な公式です。 しかし、この公式を交差検証の k を決める際に使用するのは、はっきりいって根拠がありません。 そこで、今日は交差検証の k の値をどのくらいにすれば良いのかについて考えてみたいと思います。 準備(予備知識) k の値は大きければ大きいほど、正確にモデルを評価できます。 k の

    交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む
  • 1