タグ

analysisとstatisticsに関するteddy-gのブックマーク (26)

  • 因子分析をExcelで理解する - Qiita

    主成分分析とは似て非なる手法として「因子分析」(Factor Analysis) があります。 主成分分析(PCA)では、説明変数に対して重み行列(固有ベクトル)a を線形結合した「主成分」 yPC1を合成しました。ここで、主成分は、説明変数と同じ数だけ定義します。 yPC1 = a1,1 x1 + a1,2 x2 + a1,3 x3 + a1,4 x4 + a1,5 + ... 因子分析では、説明変数(観測変数)x が「因子」(factor) という潜在変数から合成されるという考え方に基づき、その因子得点 f と重み行列(因子負荷) w 、そして独自因子 e を特定します(主成分分析に独自因子という考え方はありません)。 x1 = w1,1 f1 + w1,2 f2 + e1 x2 = w2,1 f1 + w2,2 f2 + e2 x3 = w3,1 f1 + w3,2 f2 + e3

    因子分析をExcelで理解する - Qiita
    teddy-g
    teddy-g 2023/10/14
    因子分析をEXCELでやる方法…なんだけど、この通り進めていくと途中で手詰まりになる。おとなしくRかPython使った方が早い。
  • (Python編) 時系列データをサクッとSTLでトレンド・季節性に分解

    幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。 時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。 多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。 折れ線グラフを眺めると、トレンド(上昇傾向や下降傾向)や季節性などが見て取れるケースがあります。 そこで、サクッとトレンドや季節性などを掴む手法がSTL分解(Seasonal Decomposition Of Time Series By Loess)です。 STL分解(Seasonal Decomposition Of Time Series By Loess)を実施することで、元データをトレンド、季節性、残差に分解することができます。 元データ = トレンド + 季節性 + 残差 STL分解(Seas

    (Python編) 時系列データをサクッとSTLでトレンド・季節性に分解
    teddy-g
    teddy-g 2023/06/20
    STL分解すれば時系列のトレンドをざっくり捉えることができる。ビジネスデータの場合、Seasonal Factorは12ヶ月と思っておけば大体OK。
  • Random Forestで計算できる特徴量の重要度 - なにメモ

    (pixabay.comより) 1.背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと(追記注釈1)などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。 最近、Random Forestをカジュアルに使う例が多く(特にうちの研究室)、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。 それで、いろいろな日語の資料をいくら読んでも、Random Forestがもつ特徴の1つである、特徴量の重要度の詳細に関してはほとんどノータッ

    Random Forestで計算できる特徴量の重要度 - なにメモ
    teddy-g
    teddy-g 2017/03/26
    Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。
  • 10分でわかる主成分分析(PCA)

    2. Self Introduction 緒方 貴紀 (ABEJA Inc.) Computer Vision やMachine Learning, Deep Learningの研究開発をやっています 4. PCA(Principal Component Analysis, 主成分分析)とは 主成分分析(しゅせいぶんぶんせき、英語: principal component analysis、PCAと略すこともあ る)は、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に 変換するための数学的な手続きのことである。主成分分析は、1901年にカール・ピアソンによっ て開発された手法である。KL展開(Karhunen-Loève expansion)とも呼ばれる。主成分は、分 散共分散行列(あるいは相関係数行列)に対する固有値分解あるいは、分散共分散行列(相関係 数行

    10分でわかる主成分分析(PCA)
    teddy-g
    teddy-g 2017/02/13
    行列だの固有値だの言い出さなくてわかりやすい
  • 判別分析(マハラノビス)

    トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。 判別分析には、幾つかの方法があり、「サポートベクターマシン(SVM)」のように区分する線を引く方法もある。 ここでは、マハラノビス距離を用いた判別分析について述べる。 マハラノビス距離 最も一般的に使われる距離はユークリッド距離である。一次元(例えばx軸上)では、x座標の差がそのまま距離となる。 例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。 しかし、この方法では、以下のような場合に問題となる。 青い点と赤い点の二つのグルー

    teddy-g
    teddy-g 2017/01/11
    [unsupervisedlearning]マハラノビス距離に関し、2変数の場合が丁寧に説明してある。
  • 尤度の解説

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

    teddy-g
    teddy-g 2017/01/03
    ある観測データの下での仮説の確からしさが尤度。H0とH1の尤度の比がロッド値で、どっちが確からしいかを見るのに使う。
  • 【統計学】正規分布とカイ二乗分布の関係を可視化してみる。 - Qiita

    統計学、可視化してみるシリーズの続編です。 カイ二乗分布は、ABテストのカイ二乗検定等でよく使う分布です。$\chi^2$と書いてカイ二乗です。グラフにすると下記のような形で、自由度と呼ばれるkの値に応じて形が変化します。 (グラフ描画のコードはこちら) 今回もWikipedia先生にカイ二乗分布の定義を聞いてみると、 独立に標準正規分布に従う $k$ 個の確率変数 $X_1, ..., X_k$ をとる。 このとき、統計量$$Z = \sum_{i = 1}^k X_i^2$$の従う分布のことを自由度 $k$ のカイ二乗分布と呼ぶ。 という返事が返ってきました。 うーん、どういうこと?正規分布の密度関数を2乗するの?どうやら違うようです。 まず、「独立に標準正規分布に従う $k$ 個の確率変数」ということなのでまずは標準正規分布に従う乱数のヒストグラムを書いてみようとおもいます。30,0

    【統計学】正規分布とカイ二乗分布の関係を可視化してみる。 - Qiita
    teddy-g
    teddy-g 2017/01/03
    カイ二乗分布と正規分布の関係がビジュアルに理解できる。正規分布の対数から計算されるマハラノビス距離が自由度=次元数のカイ二乗分布に従うのも納得。
  • 不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog

    これは,R Advent Calendar 2011の担当分の記事です. 機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが,現実の問題に機械学習を適用する際は,パラメータのチューニング方法など様々な観点から検討を行う必要があります.今回は,クラス分類における不均衡データ(imbalanced data)の扱いについて考えてみます. 不均衡データとは クラス分類を実行する際の悩みどころの一つとして,クラス分類の興味の対象となるクラスのサンプル数が他のクラスと比べて少ないケースがよくあることが挙げられます.このようなデータは不均衡データと呼ばれます. 例えば,スパムメールかどうかの判別において,スパムであるサンプル数とスパムではないサンプル数.あるいは,ある重病に罹患する人を特定したい場合,その病気に罹患した人数と罹患していない人数.こうしたケースではクラス間でサンプ

    不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog
    teddy-g
    teddy-g 2016/12/28
    不均衡データ=あるラベルのサンプルが少ない時の擬似データ生成法であるSMOTEの説明あり。k -再近傍点との間をランダムに選ぶらしい。
  • http://kamiyacho.org/ebm/ce201.html

    teddy-g
    teddy-g 2016/12/28
    k統計量、k検定、カッパ値の説明。(Po-Pe)/(1-Pe)で偶然起きない一致を評価する。機械学習の精度検定にも使える。
  • Rで密度推定 - どんな鳥も

    ヒストグラムとカーネル密度推定についてすごく簡単にまとめました.Kashiwa.R#4で発表する内容を文章にしたものです. 使用するデータセットまずここでは,faithful データセットの,eruption を例に用います. イエローストーン国立公園にあるOld Faithful間欠泉の噴出時間 (分) だそうです. # データセットの確認 head(faithful) # 噴出時間データのみを抜き出す fe <- faithful$eruption まず度数分布を見てみると以下のようになります. stem(fe) The decimal point is 1 digit(s) to the left of the | 16 | 070355555588 18 | 000022233333335577777777888822335777888 20 | 00002223378800035

    Rで密度推定 - どんな鳥も
    teddy-g
    teddy-g 2016/12/19
    カーネル密度推定のシンプルなまとめ。ガウシアンの場合、exp(-||x-y||^2/2h)のh=バンド幅をどう設定するかでスムージングが変わる。
  • バンディットアルゴリズム入門と実践

    39. 実際の使用イメージ 試行数 アーム1期待値 アーム2期待値 アーム3期待値 活用or探索 0(0/0) 0(0/0) 1 1(1/1) 0(0/0) 2 1(1/1) 0(0/1) 3 1(1/1) 0(0/1) 4 1(2/2) 0(0/1) 5 1(2/2) 0.5(1/2) 6 1(2/2) 0.5(1/2) 7 8 0.66(2/3) 0.5(1/2) 9 0.5(2/4) 0.5(1/2) 10 0.4(2/5) 0.5(1/2) 0(0/0) 0(0/0) 0(0/0) 0(0/1) 0(0/0) 0(0/0) 0(0/2) 0(0/2) 0(0/2) 0(0/2) ・・・最も期待値の高いアーム 39 探索 探索 探索 探索 探索 探索 活用 活用 活用 活用 ランダム選択 引くアーム 結果 1 2 3 1 2 3 - アーム1 アーム2 アーム3 アーム1 アーム2

    バンディットアルゴリズム入門と実践
    teddy-g
    teddy-g 2015/06/08
    多腕バンディットの解説。
  • R×rpart 決定木 – 分類木 | トライフィールズ

    決定木とは、分類ルールを木構造で表したものです。分類したいデータを目的変数(従属変数)、分類するために用いるデータを説明変数(独立変数)といいます。目的変数がカテゴリデータなどの場合は「分類木」、連続値などの量的データの場合は「回帰木」と呼ばれます。 決定木の最大のメリットは、結果にグラフを用いることができるため、視覚的に確認できることです。 ここでは、R言語の「rpart」パッケージを用いて決定木について見ていきます。サンプルデータとして、Rに標準で含まれている「Titanic」を使います。このサンプルデータはタイタニック号の乗客の属性情報と生死の情報が含まれています。生死を分けた要因を属性情報から分類するとどのようになるのかを見ていきます。 まずは必要となるパッケージのインストールとロードを行います。「rpart」パッケージは決定木を行うためのものだが、「rpart.plot」と「pa

    teddy-g
    teddy-g 2015/06/08
    Rでpartykitで決定木。結果が綺麗に作れる。
  • Teradata|Teradata Japan, Ltd. | 日本テラデータ株式会社

    teddy-g
    teddy-g 2015/06/01
    決定木の説明。Teradataのこのシリーズが一番分かりやすい。
  • 次元の呪い!?(1): 球面集中現象

    今日は1つの数学の問題について考えてみましょう。 We have a $\mathbb{R}^p$ unit ball which $N$ sampled uniformly. 1) Find the closest point to ${\bf 0}$. Let the distance be $r_{NN}$. 2) Repeat this with new $N$ samples. 3) Prove about the median $r^*$ of $r_{NN}$ \[ \begin{equation} r^*=\left\{1-\left(\frac{1}{2}\right)^\frac{1}{N} \right\}^\frac{1}{p} \tag{1} \end{equation} \] $p$次元球というのがまた考えにくいのですが、まずは $p=3$ あたりで考えてみてく

    teddy-g
    teddy-g 2015/06/01
    次元の呪いのひとつ、球面集中現象の証明について。
  • t値とp値の違い | XICA-Labs

    回帰分析の結果を見る際の一つの重要なチェック項目として、説明変数の係数や定数項が有意である(すなわち、統計分析によって導かれた値が「意味」が「有る」ものである)か否かに着目します。その際、キーワードとなるのがt値とp値です。 t 値とは何か? t 値は、説明変数の係数や定数項の確からしさの度合いを判断する際に使用する数値であり、t 値の絶対値が大きければ大きいほど、強く有意であると判断できます。(注1) 具体的には、t 値が「-2以下」か「+2以上」であれば有意であると一般的には判断されます。つまり、絶対値 2 以上( t ≧|2|)あると有意であると判断できます。ただし、サンプルサイズによってその基準は異なってきます。 p 値とは何か? 一方、p 値とは、説明変数の係数や定数項が”たまたま”その値である確率を示しています。例えば、ある説明変数の係数の p 値が 5 %以下であった場合、「

    t値とp値の違い | XICA-Labs
    teddy-g
    teddy-g 2015/05/28
    t値=Σの掛け目、p値=確率
  • Rと主成分分析

    観測、実験、調査では、通常個体の属性を複数の項目(変数)に分けて記録する。変数が少ない場合は、簡単なグラフや基統計量などでデータの構造を明らかにすることができるが、変数が多くなるとデータの構造が複雑になり、解析が難しくなる。一方、変数が多くなると変数の間には相関がある可能性も増える。 主成分分析(principal component analysis)は、多くの変数により記述された量的データの変数間の相関を排除し、できるだけ少ない情報の損失で、少数個の無相関な合成変数に縮約して、分析を行う手法である。主成分分析の手法はホテリング(Hotelling)によって1933年頃提案された。 変数が1つ、2つの場合は、棒グラフや散布図でデータの構造を読み取ることが可能であり、主成分分析を行う必要がないが、主成分分析の考え方を説明するため、ここでは2変数の場合の例を用いることにする。 たとえ

    teddy-g
    teddy-g 2015/05/23
    RでPCAを使うときの参考まで。累積寄与率70%~80%を超える主成分まで用いて分析をすることが多い、そうです。
  • なるほど統計学園高等部 | ローレンツ曲線

    特徴 ローレンツ曲線はある事象の集中の度合いを示す曲線で、所得や貯蓄の格差などを示す時に有効なグラフです。 ローレンツ曲線は階級ごとに集計された数値を使用します。階級値の小さい方から順に並べ、横軸に、各階級の度数(人数など)を全体の度数で割った「相対度数」を累積して並べた累積相対度数をとり、縦軸に、階級値と度数を掛け合わせ、全体に占める割合を累積していった値(累積配分比率)をとります。 中央の斜線は均等配分線といい、階級ごとの人数が同じになることなどにより、完全に均等に配分された場合を表しています。 作成方法 データを使用してローレンツ曲線を作成してみましょう。 ① まず、横軸の累積相対度数を算出します。下図のように階級の小さい順に累積度数を作成します。 ② 全体の度数で各階級の度数を割った累積相対度数を算出します。 作成されたグラフが原点を通るよう、先頭に「0」の値を入れておくとよいでし

    teddy-g
    teddy-g 2015/05/20
    ディシジョンツリー(CART)で出てくるジニ係数を分かりやすく説明してある。ふむふむ。
  • ポアソン分布 - NtRand

    An Excel Add-In Random Number Generator Powered By Mersenne Twister Algorithm ENGLISH RSS ポアソン分布(Poisson distribution) 馬に蹴られてポアソン分布 概要 恋愛の話じゃありません。馬に蹴られて死んでしまう兵士の数の分布。これこそが歴史上初のポアソン分布の実用例だったのです。驚いたでしょ? ポアソン分布が現れる例は… ある交差点で1時間に起きる事故の件数 国道1キロメートル当たりのレストランの数 この原稿を書いている間に変換間違えをする数 などといったものが考えられます。このようにポアソン分布とは、時間(例えば1時間当たり)、場所(例えば1平方メートル当たり)、距離(例えば1キロメートル当たり)などある一定区間の中で、偶然に起こる事象の数の分布です。 でもこれは一般的には起こる確

    ポアソン分布 - NtRand
    teddy-g
    teddy-g 2015/05/20
    ポアソン分布の使い方、わかりやすい事例付き。正規分布と並んで使いやすい。
  • Rでピボットテーブル

    1. TokyoR 初心者セッション Rでピボットテーブル @yokkuns 里 洋平 yohei0511@gmail.com 2013.01.26 第28回Tokyo.R 2013年1月26日土曜日 2. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日

    Rでピボットテーブル
    teddy-g
    teddy-g 2015/05/18
    Rでピボット的なものをやるときはreshape2
  • とりあえず決定木モデルを実行のためのメモ - 東京に棲む日々

    Rでの決定木分析(分類木、回帰木)の実行に関して、こうではないかとのメモを記す。 CARTアルゴリズムによる決定木分析を行うパッケージはrpartとmvpartがある。 mvpartはrpartに機能拡張を加えた上位パッケージとのこと。 2重に読み込んだ場合、以下のメッセージが出力される。 library(rpart) library(mvpart) 次のパッケージを付け加えます: 'mvpart' The following object(s) are masked from 'package:rpart': meanvar, na.rpart, path.rpart, plotcp, post, printcp, prune, prune.rpart, rpart, rpart.control, rpconvert, rsq.rpart, snip.rpart, xpred.rpart

    とりあえず決定木モデルを実行のためのメモ - 東京に棲む日々
    teddy-g
    teddy-g 2015/05/18
    rpartで決定木。