タグ

統計に関するpetite_blueのブックマーク (62)

  • Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。

    Gradient Boosting Decision Tree(GBDT)を勉強したので、その概要とRでのパッケージの簡単な使い方を乗っけておきます。 1. そもそもGBDTってなんだよっていう話。 単純に言えば、複数の決定木を作成して、集団で学習させる方法の事です。 1決定木を作り、上手くモデルで説明が出来なかったobservationに対して重みを付け、重みのついた状態で次の木を作り、また重みを付けて・・・ というステップを指定した数分だけ繰り返します。 誤差に対して学習しなおしてくれるので、決定木よりもっと良いモデルが出来上がります。 理論の詳細はこちらのを参考にしていただければと。 英語版は著者サイトで無料公開されています。英語大丈夫な人はこちらを参照するとよいかと。 http://statweb.stanford.edu/~tibs/ElemStatLearn/ あとこのイ

    Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。
  • LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家

    今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (

    LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家
  • Ridge and Lasso: Geometric Interpretation — astroML 0.4 documentation

    This documentation is for astroML version 0.4 This page Ridge and Lasso: Geometric Interpretation Links astroML Mailing List GitHub Issue Tracker Videos Scipy 2012 (15 minute talk) Scipy 2013 (20 minute talk) Citing If you use the software, please consider citing astroML. Ridge and Lasso: Geometric Interpretation¶ Figure 8.3 A geometric interpretation of regularization. The right panel shows L1 re

  • 正則化って何ぞや? - データサイエンス,と俺

    今日から2日間くらいで,「正則化」について勉強したまとめを載せようと思います.方針としては,まず簡単に正則化について説明し,その後,正則化回帰分析について簡単な説明と検証を行う形でいこうと思います. *注* 今回の記事の中には間違った記述が含まれている可能性があります.気づいた時点で訂正しますが,正しく理解したい方は最下部にある参考資料などをお読みください. 正則化とは 英語ではRegularizationといいます.正則化について非常にざっくり説明すると,「モデルの過適合を防ぐ」ために必要なものです.「過適合って何?」という人はwikiで「過剰適合」と検索しよう! 過適合の問題は,予測・分類系の手法を用いる際には常に付き纏う問題で,分析においては必ず考慮しなくてはならない問題なのです. 前述したように正則化は「過適合」を防ぐためのものですが,最近はそれだけでなく変数選択(モデル選択)を同

    正則化って何ぞや? - データサイエンス,と俺
  • 相関係数の大小は相関の有無とは全く関係ない件について。

    話題になった日経のトンデモグラフに対する突っ込みで、相関係数には言及してもp値、有意水準についての言及は少なく、勘違いしている人が多いのではないか?と感じたのでブラッシュアップも兼ねてまとめました。

    相関係数の大小は相関の有無とは全く関係ない件について。
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 相関比を最大にすることによる判別係数の求め方

    相関比を最大にすることによる判別係数の求め方 Last modified: Nov 10, 2005 群の数を $k$,各群のケース数を $n_1, n_2, \dots , n_k$ とする。 $p$ 個の変数を $X_{1}, X_{2}, \dots , X_{p}$ として,任意の重み係数 $a_{1}, a_{2}, \dots , a_{p}$ を用いて作られる合成変量を $Z$ とする。 \[ Z = a_1\ X_1 + a_2\ X_2 + \dots + a_p\ X_p \] 第 $j$ 群,第 $i$ ケースの合成変量を $Z_{ij}\ ( j = 1, 2, \dots , k;\ i = 1, 2, \dots , n_j)$ とする。 \[ Z_{ij} = a_1\ X_{1ij} + a_2\ X_{2ij} + \dots + a_p\ X_{pij}

  • 統計学自習ノート

    多変量解析 回帰分析(あてはめ),判別分析,主成分分析,因子分析, SEM 数量化 I 類,数量化 II 類,数量化 III 類,数量化 IV 類 正準相関分析,クラスター分析,主座標分析 クロンバックの $\alpha$ 信頼性係数 生存率解析 Cutler-Ederer 法による生命表,Kaplan-Meier 法による生命表 多重ロジスティックモデル,Cox の比例ハザードモデル

  • log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む

    データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次のように作っています。 N <- 100 x <- runif(N, min = 1, max = 2) y <- exp(x + rnorm(N, sd = 0.3)) data <- data.frame(x, y) それでは、log 変換しないバージョンと、するバージョンでモデルを作成して、AIC を比較してみましょう。 model <- lm(y ~ x, data) model.log <- lm(log(y) ~ x, data) aic <- AIC(model, model.log) print(aic) ## df AIC

    log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む
  • 情報幾何がわからないという話 (Mathematics Advent Calender 2日目) - じょうよわだけど

    2013-12-02 情報幾何がわからないという話 (Mathematics Advent Calender 2日目) 統計 はじめに 2013年を振り返ると、なんといっても印象深かった出来事は「艦隊これくしょん(艦これ)」の爆発的なヒットです! 今や日人の100人に1人は提督であるという計算になり、艦これオンリーイベントが全国で開催されています。また、艦これ公式によるガイドブックが出版されるなど、関連グッズの展開も著しいです。 艦これの今後のますますの躍進に期待ですね!さて、この2013年、もうひとつ印象深かった出来事は情報幾何の爆発的なヒットです! 今や日人の100人に1人は情報幾何をやっている計算になり、情報幾何オンリーイベントも開催されました。また、来年度には情報幾何公式によるガイドブック(※)が出版されるなど、関連グッズの展開も著しいです。 情報幾何の今後のますますの

  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
  • やったー!僕にもANOVAの原理がわかったよ! - ほくそ笑む

    以前のエントリにも書いたけど、マイクロアレイ発現解析は基的に2つのグループ間での発現量の比較をします。例えば「病気の人 v.s. 健康な人」とか「薬を飲んだ人 v.s. 飲んでない人」とかです。こういうときは2群間検定(t検定とか)を使えば発現量の差が有意な遺伝子を特定できます。 しかし、たまに癌のグレード(重症度)とかのデータでコントロール(健常者)のデータが無いときがあります。このとき比較したいのは「グレード1 v.s. グレード2 v.s. グレード3」という、3つのグループ間で発現量を比較することになります。 3つのグループ間での発現量を比較するときは、t検定のような2群間比較の手法を「グループ1 v.s. グループ2」「グループ2 v.s. グループ3」「グループ3 v.s. グループ1」のように複数回行えばできるのですが、検定には間違う確率が常に付きまとうので、何度も検定を繰

    やったー!僕にもANOVAの原理がわかったよ! - ほくそ笑む
    petite_blue
    petite_blue 2012/12/23
    ANOVA
  • 因子分析メモ - ほくそ笑む

    (※自分用メモです) 因子分析は、観測された変数(顕在変数)から、その因子である観測されていない変数(潜在変数)との関連を明らかにする解析手法である。 因子分析モデル 因子分析では、次の回帰モデルを仮定する。 ここで、 は顕在変数、 は因子負荷量、 は潜在変数(因子)、 は独自変量である。 上記回帰モデルから、次が成り立つ。 ここで、 は の共分散行列、 は の分散を対角成分に持つ行列(独自分散行列)である。 因子分析では、この式を満たす および を推定する。 推定方法 推定の方法は大きく2つある。 主因子分析 最尤因子分析 1.主因子分析は、固有値と固有ベクトルを用いた手法であり、あまり使われない。 2.最尤因子分析は、因子分析モデルにおける行列の推定量の差 を次のように定義し、 これを最小にすることにより推定する( は顕在変数の数、つまり の次数)。 を最小にすることは、尤度関数 を最

    petite_blue
    petite_blue 2012/12/23
    因子分析
  • はてなブログ | 無料ブログを作成しよう

    わたし的棚ぼた一万円選書 急に千葉さんに手渡された封筒、開けてみたら1万円札が1枚。何ごとかと思えば、同期の出張を代わったお礼をもらったらしい。 「葵はワンオペで育児してくれたから」と半分わけてくれました。 泡銭の1万円 これはもう、わたし的1万円選書をしろという思し召しなのでは……

    はてなブログ | 無料ブログを作成しよう
  • ベイズ統計と統計物理(統計科学のフロンティア12 計算統計II マルコフ連鎖モンテカルロ法の基礎)

    サポートページ (ベイズ統計 & マルコフ連鎖モンテカルロ) 2008年度より,新シリーズ「確率と情報の科学」が刊行開始となりました. 伊庭は編集のみで執筆の予定はありませんが,それとは別に新作の計画も練っております. 「統計科学のフロンティア」12巻『計算統計II』は好評6刷りとなりました. 伊庭は,第I部「マルコフ連鎖モンテカルロ法の基礎」,補論A「逐次モンテカルロ法 入門」を執筆しております. また,おかげさまで「ベイズ統計と統計物理」も5800部以上(7刷り)を超えました.フロンティア,確率と情報の科学ともどもよろしくお願いします. ― 伊庭幸人 店頭にない書店も多いので,ご友人やご同僚の方にお勧めの場合,ご購入はアマゾンまたは岩波書店の直売を利用していただくのが確実な旨,お伝えくださると幸いです. 統計科学のフロンティア12 計算統計II マルコフ連鎖モンテカルロ法の基礎 アマゾ

  • 痛みと鎮痛の基礎知識 - Pain Relief

     Pain Reliefー私のための統計処理 →→→→→→ UMINサイトに 移動しました!

  • 次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

    The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ

    次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
    petite_blue
    petite_blue 2011/07/17
    ほんとうかしら
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • ロジスティック回帰

    目次 1)ロジスティック回帰分析概説 2)ロジスティック回帰分析はどんな時に使用するか 3)ロジスティックモデルとは 4)ロジスティック回帰分析で得られるのは 5)オッズ比とは 6)オッズ比の95%信頼限界とは 7)ダミー変数について 8)変数選択上の注意点 9)ロジスティック回帰分析が可能な統計ソフト 10)ロジスティック回帰分析に関する参考書 1)ロジスティック回帰分析概説 近年の外国の論文にロジスティック回帰分析が非常に増えており、これが理解できないと論文を読めないことが多い。このことは、単変量解析では十分な解析ができないことが多いことを示唆しており、今後日の論文でも、ロジスティック回帰分析が確実に増加していくものと思われる。しかし、ロジスティック回帰分析を理解しようと思っても、やさしい教科書は非常に少ない。ロジスティック回帰分析は、疫学調査などの大規模なスタディには必須で

  • Kardi Teknomo's Tutorial

    Kardi Teknomo's Tutorials Since 2003, Revoledu.com has been providing trusted contents that can be checked in Wayback Machine of the Internet Archive. Please feel free to read any of my tutorials. All of them are introductory materials. If you like these tutorials, link this page from your homepage, tell your friends, spread the words and consider to give your donation or purchase the tutorials an

    petite_blue
    petite_blue 2011/02/02
    いろいろなアルゴリズムのまとめ