[B! 統計] [3ページ] petite_blueのブックマーク

Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。

Gradient Boosting Decision Tree(GBDT)を勉強したので、その概要とRでのパッケージの簡単な使い方を乗っけておきます。 1. そもそもGBDTってなんだよっていう話。単純に言えば、複数の決定木を作成して、集団で学習させる方法の事です。１本決定木を作り、上手くモデルで説明が出来なかったobservationに対して重みを付け、重みのついた状態で次の木を作り、また重みを付けて・・・というステップを指定した本数分だけ繰り返します。誤差に対して学習しなおしてくれるので、決定木よりもっと良いモデルが出来上がります。理論の詳細はこちらの本を参考にしていただければと。英語版は著者サイトで無料公開されています。英語大丈夫な人はこちらを参照するとよいかと。 http://statweb.stanford.edu/~tibs/ElemStatLearn/ あとこのイ

petite_blue 2015/01/26

リンク

LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家

今回はLASSOとリッジ回帰についてです。パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。まずは使用例から。。。データはLARSパッケージにあるdiabetesを使います。このデータである結果変数y（中性脂肪？）をx（性別や血圧など）によって予測するモデルを作ります。まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (

petite_blue 2014/11/17

リンク

Ridge and Lasso: Geometric Interpretation — astroML 0.4 documentation

This documentation is for astroML version 0.4 This page Ridge and Lasso: Geometric Interpretation Links astroML Mailing List GitHub Issue Tracker Videos Scipy 2012 (15 minute talk) Scipy 2013 (20 minute talk) Citing If you use the software, please consider citing astroML. Ridge and Lasso: Geometric Interpretation¶ Figure 8.3 A geometric interpretation of regularization. The right panel shows L1 re

petite_blue 2014/11/17

リンク

正則化って何ぞや？ - データサイエンス，と俺

今日から２日間くらいで，「正則化」について勉強したまとめを載せようと思います．方針としては，まず簡単に正則化について説明し，その後，正則化回帰分析について簡単な説明と検証を行う形でいこうと思います．＊注＊今回の記事の中には間違った記述が含まれている可能性があります．気づいた時点で訂正しますが，正しく理解したい方は最下部にある参考資料などをお読みください．正則化とは英語ではRegularizationといいます．正則化について非常にざっくり説明すると，「モデルの過適合を防ぐ」ために必要なものです．「過適合って何？」という人はwikiで「過剰適合」と検索しよう！過適合の問題は，予測・分類系の手法を用いる際には常に付き纏う問題で，分析においては必ず考慮しなくてはならない問題なのです．前述したように正則化は「過適合」を防ぐためのものですが，最近はそれだけでなく変数選択（モデル選択）を同

petite_blue 2014/11/17

リンク

相関係数の大小は相関の有無とは全く関係ない件について。

話題になった日経のトンデモグラフに対する突っ込みで、相関係数には言及してもp値、有意水準についての言及は少なく、勘違いしている人が多いのではないか？と感じたのでブラッシュアップも兼ねてまとめました。

petite_blue 2014/11/02

統計

リンク

オンラインで無料で読める統計書22冊｜Colorless Green Ideas

はじめに今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。入門書まず、統計の初学者のために書かれた入門書を紹介したいと思う。福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

petite_blue 2014/04/10

統計

リンク

相関比を最大にすることによる判別係数の求め方

相関比を最大にすることによる判別係数の求め方 Last modified: Nov 10, 2005 群の数を $k$，各群のケース数を $n_1, n_2, \dots , n_k$ とする。 $p$ 個の変数を $X_{1}, X_{2}, \dots , X_{p}$ として，任意の重み係数 $a_{1}, a_{2}, \dots , a_{p}$ を用いて作られる合成変量を $Z$ とする。 \[ Z = a_1\ X_1 + a_2\ X_2 + \dots + a_p\ X_p \] 第 $j$ 群，第 $i$ ケースの合成変量を $Z_{ij}\ ( j = 1, 2, \dots , k;\ i = 1, 2, \dots , n_j)$ とする。 \[ Z_{ij} = a_1\ X_{1ij} + a_2\ X_{2ij} + \dots + a_p\ X_{pij}

petite_blue 2014/03/28

リンク

統計学自習ノート

多変量解析回帰分析（あてはめ），判別分析，主成分分析，因子分析, SEM 数量化 I 類，数量化 II 類，数量化 III 類，数量化 IV 類正準相関分析，クラスター分析，主座標分析クロンバックの $\alpha$ 信頼性係数生存率解析 Cutler-Ederer 法による生命表，Kaplan-Meier 法による生命表多重ロジスティックモデル，Cox の比例ハザードモデル

petite_blue 2014/03/27

統計

リンク

log 変換する？しない？AICでモデル比較するときの注意点 - ほくそ笑む

データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。次のデータを見て下さい。このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。それもそのはず、このデータは次のように作っています。 N <- 100 x <- runif(N, min = 1, max = 2) y <- exp(x + rnorm(N, sd = 0.3)) data <- data.frame(x, y) それでは、log 変換しないバージョンと、するバージョンでモデルを作成して、AIC を比較してみましょう。 model <- lm(y ~ x, data) model.log <- lm(log(y) ~ x, data) aic <- AIC(model, model.log) print(aic) ## df AIC

petite_blue 2013/12/24

統計

リンク

情報幾何がわからないという話 (Mathematics Advent Calender 2日目) - じょうよわだけど

2013-12-02 情報幾何がわからないという話 (Mathematics Advent Calender 2日目) 統計はじめに 2013年を振り返ると、なんといっても印象深かった出来事は「艦隊これくしょん（艦これ）」の爆発的なヒットです！今や日本人の100人に1人は提督であるという計算になり、艦これオンリーイベントが全国で開催されています。また、艦これ公式によるガイドブックが出版されるなど、関連グッズの展開も著しいです。艦これの今後のますますの躍進に期待ですね！さて、この2013年、もうひとつ印象深かった出来事は情報幾何の爆発的なヒットです！今や日本人の100人に1人は情報幾何をやっている計算になり、情報幾何オンリーイベントも開催されました。また、来年度には情報幾何公式によるガイドブック（※）が出版されるなど、関連グッズの展開も著しいです。情報幾何の今後のますますの

petite_blue 2013/12/02

リンク

今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた（前編：検定力が低い） - Take a Risk：林岳彦の研究メモ

どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。さて。今回は前々回の記事：因果関係がないのに相関関係があらわれる４つのケースをまとめてみたよ（質問テンプレート付き） - Take a Risk：林岳彦の研究メモの続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。（＊今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください）まずは（今回の記事における）用語の定義：「相関」と「因果」今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。（＊細かいと

petite_blue 2013/09/05

統計

リンク

やったー！僕にもANOVAの原理がわかったよ！ - ほくそ笑む

以前のエントリにも書いたけど、マイクロアレイ発現解析は基本的に2つのグループ間での発現量の比較をします。例えば「病気の人 v.s. 健康な人」とか「薬を飲んだ人 v.s. 飲んでない人」とかです。こういうときは2群間検定(t検定とか)を使えば発現量の差が有意な遺伝子を特定できます。しかし、たまに癌のグレード(重症度)とかのデータでコントロール(健常者)のデータが無いときがあります。このとき比較したいのは「グレード1 v.s. グレード2 v.s. グレード3」という、3つのグループ間で発現量を比較することになります。 3つのグループ間での発現量を比較するときは、t検定のような2群間比較の手法を「グループ1 v.s. グループ2」「グループ2 v.s. グループ3」「グループ3 v.s. グループ1」のように複数回行えばできるのですが、検定には間違う確率が常に付きまとうので、何度も検定を繰

petite_blue 2012/12/23

ANOVA

統計

リンク

因子分析メモ - ほくそ笑む

（※自分用メモです）因子分析は、観測された変数（顕在変数）から、その因子である観測されていない変数（潜在変数）との関連を明らかにする解析手法である。因子分析モデル因子分析では、次の回帰モデルを仮定する。ここで、は顕在変数、は因子負荷量、は潜在変数（因子）、は独自変量である。上記回帰モデルから、次が成り立つ。ここで、はの共分散行列、はの分散を対角成分に持つ行列（独自分散行列）である。因子分析では、この式を満たすおよびを推定する。推定方法推定の方法は大きく2つある。主因子分析最尤因子分析 1.主因子分析は、固有値と固有ベクトルを用いた手法であり、あまり使われない。 2.最尤因子分析は、因子分析モデルにおける行列の推定量の差を次のように定義し、これを最小にすることにより推定する（は顕在変数の数、つまりの次数）。を最小にすることは、尤度関数を最

petite_blue 2012/12/23

因子分析

R
統計

リンク

はてなブログ | 無料ブログを作成しよう

わたし的棚ぼた一万円選書急に千葉さんに手渡された封筒、開けてみたら1万円札が1枚。何ごとかと思えば、同期の出張を代わったお礼をもらったらしい。「葵はワンオペで育児してくれたから」と半分わけてくれました。泡銭の1万円これはもう、わたし的1万円選書をしろという思し召しなのでは……

petite_blue 2011/11/15

統計

リンク

ベイズ統計と統計物理(統計科学のフロンティア12　計算統計II　マルコフ連鎖モンテカルロ法の基礎)

サポートページ (ベイズ統計＆マルコフ連鎖モンテカルロ) 2008年度より，新シリーズ「確率と情報の科学」が刊行開始となりました．伊庭は編集のみで執筆の予定はありませんが，それとは別に新作の計画も練っております．「統計科学のフロンティア」12巻『計算統計II』は好評6刷りとなりました．伊庭は，第I部「マルコフ連鎖モンテカルロ法の基礎」，補論A「逐次モンテカルロ法入門」を執筆しております．また，おかげさまで「ベイズ統計と統計物理」も5800部以上(7刷り)を超えました．フロンティア，確率と情報の科学ともどもよろしくお願いします． ― 伊庭幸人店頭にない書店も多いので，ご友人やご同僚の方にお勧めの場合，ご購入はアマゾンまたは岩波書店の直売を利用していただくのが確実な旨，お伝えくださると幸いです．統計科学のフロンティア12　計算統計II　マルコフ連鎖モンテカルロ法の基礎アマゾ

petite_blue 2011/10/10

統計

リンク

痛みと鎮痛の基礎知識 - Pain Relief

Pain Reliefー私のための統計処理 →→→→→→　UMINサイトに　移動しました！

petite_blue 2011/08/20

統計

リンク

次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

The Top Three hottest new majors for a career in techno logy : Microsoft Jobs Blog マイクロソフトの採用活動などを記しているブログ「Microsoft Jobs Blog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in techno logy」（テクノロジー分野でもっとも熱い、3つの専門性とは）では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing （データマイニング／機械学習／人工知能／自然言語処理） Business Intelligence/Competitive Intelligence （ビジ

petite_blue 2011/07/17

ほんとうかしら

統計

リンク

統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ～おとうさんの解析日記～

googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています（同記事）。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。数量化理論数量化I類 = ダミー変数による線形回帰数量化II類 = ダミー変数による判別分析数量化III類 =

petite_blue 2011/07/17

統計

リンク

ロジスティック回帰

目次 1)ロジスティック回帰分析概説 2)ロジスティック回帰分析はどんな時に使用するか３）ロジスティックモデルとは 4)ロジスティック回帰分析で得られるのは 5)オッズ比とは 6)オッズ比の95%信頼限界とは 7)ダミー変数について 8)変数選択上の注意点 9)ロジスティック回帰分析が可能な統計ソフト 10)ロジスティック回帰分析に関する参考書 1)ﾛｼﾞｽﾃｨｯｸ回帰分析概説近年の外国の論文にロジスティック回帰分析が非常に増えており、これが理解できないと論文を読めないことが多い。このことは、単変量解析では十分な解析ができないことが多いことを示唆しており、今後日本の論文でも、ロジスティック回帰分析が確実に増加していくものと思われる。しかし、ロジスティック回帰分析を理解しようと思っても、やさしい教科書は非常に少ない。ロジスティック回帰分析は、疫学調査などの大規模なスタディには必須で

petite_blue 2011/07/02

統計

リンク

Kardi Teknomo's Tutorial

Kardi Teknomo's Tutorials Since 2003, Revoledu.com has been providing trusted contents that can be checked in Wayback Machine of the Internet Archive. Please feel free to read any of my tutorials. All of them are introductory materials. If you like these tutorials, link this page from your homepage, tell your friends, spread the words and consider to give your donation or purchase the tutorials an

petite_blue 2011/02/02

いろいろなアルゴリズムのまとめ

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

統計に関するpetite_blueのブックマーク (62)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス