タグ

統計に関するymym3412のブックマーク (10)

  • 『パシフィック・リム: アップライジング』は突出したものが無い - 本しゃぶり

    『パシフィック・リム: アップライジング』を見た。 いつものように心拍数と瞬目数を載せる。 ネタバレは無い。 http://pacificrim.jp/ より 心拍数と瞬目数 俺は2014年11月から心拍数を測り続けている。なので映画を観ている時の心拍数データがある。さらに今年からは、映画を観ている時の瞬目数(まばたきの回数)のデータもとるようにした。これによって映画を観ている時の興奮と集中を記録しようとしているわけである。 観ている時の心拍数が高いほど、その映画によって興奮していると考える。 瞬目数は逆に少ない方がその映画に集中していると考える*1。 『パシフィック・リム: アップライジング』のデータ 『パシフィック・リム: アップライジング』を観ている時の心拍数と瞬目数の変化をグラフ化したものが以下である。 心拍数や瞬目数だけで見ると、あまり特徴の無い結果となった。多少の上下はしている

    『パシフィック・リム: アップライジング』は突出したものが無い - 本しゃぶり
  • 京都大学がビッグデータの新統計法則を発見、「べき則」の普遍性を解明

    京都大学の梅野健教授と新谷健修士課程学生は、世界中の様々なビッグデータに現れる「べき則」の普遍性を説明する新しい統計法則を発見した。この統計法則は「超一般化中心極限定理」と呼べるもので、データ上に普遍的に現れるという。これにより世界の様々な現象の統計モデルの構築が期待される。 今回の研究では、現実のデータを反映した、従来の統計則である極限定理では捉えることができない、異なるべき分布を個々に持つ独立な確率変数の和という統計モデルを定式化した。その上で、データの数Nを無限にする極限において、レビの安定分布に収束するという極限定理を導出した。 この極限定理は、統計学の基法則である中心極限定理をべき則に一般化した一般化中心極限定理を、さらに異なるべき則の和の極限に拡張したもので、「超一般化中心極限定理」と呼ぶことができる。より一般化された状況でも成立する極限定理としての統計学的な意義があるととも

    京都大学がビッグデータの新統計法則を発見、「べき則」の普遍性を解明
  • ROC曲線とは何か、アニメーションで理解する。 - Qiita

    統計学、パターン認識等で、ROC(Receiver Operating Characteristic;受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。(例えばココ) このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説 まず、例として健康に関するとある検査数値データがあったとします。 この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。(下記図の緑の曲線) 病気の人は平均30、標準偏差4の正規分布に従い分布しています。(下記の図の青の曲線) グラフにすると下

    ROC曲線とは何か、アニメーションで理解する。 - Qiita
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

    さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを

    機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
  • 多重比較

    多重比較 multiple comparison (Post-hoc test) 検定の多重性の理解は重要! 1)多重比較とは 3つ以上の群で、個々の群と群を検定する場合に、有意水準を上げずに(第一種過誤率を保ったまま)行う検定法。 ANOVA(分散分析)で、有意差があった場合にどの群とどの群に有意差があるか調べる場合に使用されることが多い。 2)多重性とは ひとつの実験系で、統計的検定を繰り返すことをいう。 検定を繰り返すことにより、1回のみ検定を行った場合より第一種過誤率が大きくなってしまう。 すなわち、有意差がでる可能性が高くなってしまう。 3)なぜ、多重比較が必要か 分散分析のところでも述べたが、多群の比較をおこなうのに例えば2標t検定を繰り返すと有意水準があまくなってしまうのである。 A,B,Cの3群について、A-B,A-C,B-Cの すべてについて2標t検定を行

  • カイ2乗分布,カイ2乗検定

    ■カイ2乗分布(χ2分布)[chi-square distribution] ・・・ 比率の検定 ※ このページは推定・検定の内容を前提としています. ◇簡単な例でイメージ作り(1)◇ 例1 日人のABO式血液型の分布はおよそA型40%,B型20%,AB型10%,O型30%だといわれている.ある村で献血に応じた者のうち先着100人の血液型は次の表のとおりであった.(ただしデータは架空のもの)

  • 統計学入門−第5章

    (a) 2つの変数が計量尺度の時 最も基的であり、図5.5.2の左上の図のように普通の回帰直線を求め、その回帰係数の検定および推定を行います。 そして回帰直線の当てはまり具合を表す指標として寄与率を求めます。 (→5.1 相関係数と回帰直線 (2)回帰分析) (b) 説明変数が順序尺度で目的変数が計量尺度の時 この場合は順序尺度のデータを適当に計量尺度化し、それを用いて回帰分析を行います。 説明変数は確率変数ではないため、目的変数との関係が直線的であり、かつ実質科学的に妥当なものであればどのように計量尺度化してもかまいません。 (→5.1 相関係数と回帰直線 (2)回帰分析) (c) 説明変数が計量尺度または順序尺度で目的変数が順序尺度の時 この場合は順序尺度を適当に計量尺度化して回帰分析を適用するか、それとも順序ロジスティック回帰分析を適用します。 順序ロジスティック回帰分析については

    ymym3412
    ymym3412 2017/08/28
    “クラメールの連関係数”
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ

    こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。 先日個人ブログでこんなエントリを書いた人です: mathetake.hatenablog.com そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。 今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1 マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo) 通称MCMCに関するエントリです。より具体的に、 MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の1つである*2Langevin Dynamics(§6.)、そして(僕

    【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • 1