タグ

*statisticsに関するryskosnのブックマーク (137)

  • A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

    素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、 意味のある差とは何かを事前に決定する サンプルサイズを事前に決定する という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。 よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。 さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

    A/Bテストと統計的検定の注意点(その1) - ほくそ笑む
  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • 統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER

    まず、二次元の特徴量をもったデータセットがあるときを考えてみよう。 もし、一方の次元の値が高いときに、もう一方も高い傾向があるときは、両者に正の相関があるという。 反対に、一方の次元の値が高いときに、もう一方は低い傾向があるときは、両者に負の相関があるという。 では、それぞれの次元に正または負の相関があるか否かを調べるには、具体的にどうしたら良いのだろうか。 散布図を描いてみる それにはまず、散布図を描いてみるという選択肢がある。 x 軸と y 軸に、それぞれの次元の値をプロットするやり方だ。 このとき、例えば正の相関があるなら、値は次のように左下から右上にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y 軸の次元の値も高くなることを示す。 反対に、負の相関があるなら、値は次のように左上から右下にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y

    統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER
  • やってみよう分析! 第5章:Excelの分析ツールとソルバーの活用(回帰、最小2乗法) - Qiita

    まえがき 今回も始まりました。やってみよう分析!シリーズ 前章まではExcelMySQLを連携させ、csvMySQLに読み込んだりpivotを利用する方法を紹介しました。章ではMySQLから離れ、Excelのアドインツールである分析ツールとソルバーを紹介します。章で紹介する項目は下記のとおりです。 分析ツールとソルバーの導入 分析ツールで回帰 ソルバーで回帰 ソルバーの応用:最小2乗法により曲線のフィッティング ※章はExcel2010以降で動作します。 分析ツール、ソルバーとは Excelを活用することでpivotを駆使し、ドリルダウン形式の分析はかなりのことが行えます。さらにMySQLと連携させることで中規模程度のデータの分析なら比較的簡単に分析することが可能です。一方、単純なクロス集計以上の分析が必要になる場合もあります。例えば回帰分析、関数のフィッティングやフーリエ変換、

    やってみよう分析! 第5章:Excelの分析ツールとソルバーの活用(回帰、最小2乗法) - Qiita
  • Amazon.co.jp: Excelで学ぶ共分散構造分析とグラフィカルモデリング―Excel2013/2010/2007対応版―: 小島隆矢, 山本将史: 本

    Amazon.co.jp: Excelで学ぶ共分散構造分析とグラフィカルモデリング―Excel2013/2010/2007対応版―: 小島隆矢, 山本将史: 本
  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
  • Amazon.co.jp: 岩波データサイエンス Vol.3: 岩波データサイエンス刊行委員会: 本

    Amazon.co.jp: 岩波データサイエンス Vol.3: 岩波データサイエンス刊行委員会: 本
    ryskosn
    ryskosn 2016/06/11
    岩波データサイエンス Vol.2
  • Amazon.co.jp: 岩波データサイエンス Vol.2: 岩波データサイエンス刊行委員会: 本

    Amazon.co.jp: 岩波データサイエンス Vol.2: 岩波データサイエンス刊行委員会: 本
    ryskosn
    ryskosn 2016/06/11
    岩波データサイエンス Vol.1
  • Amazon 岩波データサイエンス Vol.1

    Amazon 岩波データサイエンス Vol.1
  • 時系列分析のお勧め本リスト

    時系列分析のは多くはないですが、それぞれ特徴があるので、ハミルトンを中心としつつ、自分の興味に合ったを読んでいけばいいのではないかと。サンプルコードがついていれば、より理解が深まります。

    時系列分析のお勧め本リスト
  • 時系列分析I ――ARMAモデルと時系列分析

    連載バックナンバー はじめに 今回は時系列分析について紹介します。ビジネスで生成されるデータの多くが“時間“の項目を含む時系列データで、1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となります。 時系列分析(Time Series Analysis)とは? 時系列分析(Time Series Analysis)は、株価や為替レートなど金融関連の時間とともに変化するデータを分析し予測するために発達してきました。「時系列計量経済学(Time Series Econometrics)」などの学問の中で論じられているデータ分析の中では、比較的歴史のあるテーマです。それだけに、定式化するためのさまざまなモデルが提案されていて、1つの変量を分析するためのモデルだけでも、表1のように多くのモデルがあります。 略称 説明 AR

    時系列分析I ――ARMAモデルと時系列分析
  • 時系列解析_ホワイトノイズとランダムウォーク | Logics of Blue

    Rを用いた時系列解析 の実践例を載せます。 時系列解析ってなに? という方は時系列解析_理論編を先に読まれるとよいと思います。 ここでは、格的な時系列モデルを組む前に、予測がほぼ不可能であるホワイトノイズとランダムウォークの性質と和分過程の特徴を解説します。 モデルによる予測ができない時 1.ホワイトノイズ これからARIMAモデルを推定していくわけですが、そもそも自己相関が全くない、すなわち過去から未来を予測できないデータをお目にかけます。 自己相関の無い完全な雑音のようなデータのことをホワイトノイズと言います。 このホワイトノイズをforecastパッケージのauto.arimaでモデリングしてみましょう。 ホワイトノイズは下のコードで簡単に作れます。 set.seed(1) white.noise <- rnorm(n=400) plot(white.noise, type=”l”

    時系列解析_ホワイトノイズとランダムウォーク | Logics of Blue
  • 平成17年5月10日 小林秀二 単位根検定 株価、地価、GDP、マネー・サプライなどのデータをそのまま時系列に並べて回帰分 析し、t値が有意だとか決定係数が高いというレポート��

    平成17年5月10日 小林秀二 単位根検定 株価、地価、GDP、マネー・サプライなどのデータをそのまま時系列に並べて回帰分 析し、t値が有意だとか決定係数が高いというレポートを見かける。これはかなり問題が ある分析であることを紹介したい。 社会事象データの分析の最大の問題点は、1時点に1データしかなく、繰り返し実験が できないということである。したがって、農場や実験室での多変量解析や統計学をそのま ま使うことは困難である。だからこそ、計量経済学や時系列分析という分野が発展してき たのであるが、その代償としてデータが「定常」であるという条件1を持たせて理論展開す ることが行われる。 あまり意識されることはなかったが、もし定常でないデータを定常を前提としたモデル に入れると、危うい分析となってしまうことが強調されるようになってきた。例えば、 来関係のない変数同士でも「見せかけ回帰」にな

    ryskosn
    ryskosn 2016/05/06
    共和分
  • Cointegration① - 勉強日記

    ちょっと訳があってCointegration(共和分)の復習をしています。Cointegrationは大学院時代勉強しましたが、applicationでまったく使わなかったので、すっかり忘れてしました。Cointegrationの考え方は極めて重要ですが、日語ベースでの良い解説書はあんまり無いように思います。あと、なんといっても時系列の非定常過程は難しい! というわけで、アラサーであり、難しいことをすっかり忘れてしまった僕が、ひさびさCointegrationの勉強日記をつけてみます。以前の通り、"Analysis of Integrated and Cointegrated Time Series with R"をベースにしますが、色々と回り道しながらすすめていきましょう。 さて、まず、つぎのような典型的な回帰式を考えて見ます。 僕らが問題にしたいことはこういうことです。すなわち、とと

  • ARモデルのパラメータ推定法[ストレスと自律神経の科学]

    ARモデルのパラメータ推定法 自己回帰モデル(AR法)を用いたパワースペクトル密度算出 その1 少しおさらいと確認をしておきます。ストレス指標であるLF/HFは、交感神経活動と副交感神経活動のバランスを心拍変動の時系列データから計算したものでした。この自律神経バランスとしてのストレス指標を計算するためには、まず心拍変動時系列からパワースペクトル密度を算出する必要がありました。パワースペクトル密度はウィーナーヒンチンの定理を利用して自己相関関数からフーリエ変換により求める他に、自己回帰モデル(ARモデル)を利用して求めることもできます。ここではこのARモデルを利用する方法を解説します。 自律神経指標として心拍変動時系列の周波数解析をする文献では、特に断りもなく「心拍変動時系列データを自己回帰モデル(AR法)で分析すると次の式のパワースペクトルP(f)を得る」とさらりと以下の式を出します。 こ

  • データサイエンティストの登竜門?統計基礎を最速で学ぶなら「統計検定二級」がおすすめ - 俺、サービス売って家買うんだ

    2016年3月25日にアップデートしました。 こんにちは。Hayatoです。仕事では大きなデータの処理とかそのクリーニングや解析をしています。 大学時代は熱心に勉学に励まなかったこともあり統計的知識が弱く、いつも平均だけだしてパパっと分析済ませちゃったりしていたのです。 しかし時代はデータサイエンティスト!僕もデータクリーナーじゃなくてデータサイエンティストになりたい!ということでGoogleに入社してからこつこつ統計の勉強をしています。 その過程で、基礎を学ぶのに、統計検定二級がとても効率的だったのでご紹介します。 統計検定2級 統計検定2級ってなに? 総務省が後援している統計検定は、日で一番有名な統計の技術を測る資格試験です。 1級, 2級, 3級とあり、その真ん中のレベルに当たるのが統計検定です。 想定受験者 プログラマーだけど統計周りの基礎知識がない人。 データサイエンティストと

    データサイエンティストの登竜門?統計基礎を最速で学ぶなら「統計検定二級」がおすすめ - 俺、サービス売って家買うんだ
  • 正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり) - 俺、サービス売って家買うんだ

    学校の授業や資格のテストでは、「正規分布をしている」ことを前提に、検定や推定が行われることが多いですよね。 しかし、実際に自分でデータをとって分析する時は、当然ですが誰もそのデータ郡が「正規分布をしている」とは保証してくれないわけです。 そのため、データ解析を始めるその前に「正規性の検定(正規分布しているかどうかの確認)」をしなければなりません。 今回は、正規分布かどうかを見極めるための検定と手法を、Pythonを用いてやっていきたいと思います。 注)* 標準偏差・ヒストグラムなどを理解していない初学者の方はまずこちらから参照することをおすすめします。 www.ie-kau.net 目次:正規分布かどうか見極める手順 まずはサンプルデータの作成から ヒストグラムとQQプロットで視覚的に確認する 法則を使って正規性を検定する 1. まずはサンプルデータの作成から データがあったほうがわかりや

    正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり) - 俺、サービス売って家買うんだ
    ryskosn
    ryskosn 2016/04/14
    ありがたい。参考になります。
  • https://upo-net.ouj.ac.jp/tokei/contents/sub_contents/c01_06_00.xml

  • 共和分 - Wikipedia

    共和分(きょうわぶん、英: cointegration)とは時系列変数の集まり (X1, X2, ..., Xk) が持つ統計学的性質である。まず、共和分を持つ全ての系列は1次の和分過程でなくてはならない(単位根を参照)。次に、この系列の線形結合が0次の和分過程(定常過程ということ)ならば、この時系列は共和分していると言う。厳密には、もし変数 (X, Y, Z) が全て1次の和分過程であり、ある係数 a,b,c が存在して aX+bY+cZ が0次の和分過程となるならば、(X, Y, Z) は共和分しているという。時系列はしばしば確率的にしろ非確率的にしろトレンドを持つ。チャールズ・ネルソンとチャールズ・プロッサーが行った研究では、アメリカの多数のマクロ経済時系列(例えば、GNP、賃金、雇用者数など)は確率的なトレンドを持つ、すなわち単位根過程であるか、1次の和分過程であった[1]。彼らは

  • 単位根 - Wikipedia

    単位根(たんいこん、英: unit root)とは、時間を通じて変化する確率過程が持つ、統計的推論に問題をもたらし得る側面の一つである。 もし線形な確率過程の特性方程式の根の一つが1であるならば、その確率過程は単位根を持つ。このような確率過程は非定常である。もしこの確率過程の特性方程式の他の根がすべて単位円の内側にあるならば、つまり絶対値が1以下ならば、この確率過程の1階差分は定常である。 定義[編集] 離散確率過程 を考え、次のような p 次の自己回帰確率過程であると仮定する。 ここで、 は自己相関がなく、平均が0で定数の分散 を持つとする。簡単化のために とする。もし、特性方程式、 、 の根の一つが ならば、この確率過程は単位根を持つ、もしくは一次の和分(英語版)過程であると呼び、 と書く。もし、特定方程式の複数個(r 個)の根が ならば(解 の重複度が r ならば)、その確率過程は

    単位根 - Wikipedia