ブックマーク / webbeginner.hatenablog.com (3)

  • 三平方の定理で理解する回帰分析における分散の分解 - jnobuyukiのブログ

    今回は、回帰分析の細かいモデルの話を中学校で習う「三平方の定理」を利用して考えてみます。 最小2乗法による推定 回帰分析では、最小2乗法という計算方法で、回帰直線をひくための2つの推定値(切片と傾き)を決めます。何を最小にするかというと実際に観測したデータとモデルによる推定値の間に生まれる誤差(残差と呼びます)を最小にしたいわけです。2乗というのは以下のような計算方法で残差を計算することによります。 予測したモデルにおける推定値と観測した値を引き算する。 引き算の答えを2乗する。この段階で、推定値が大きくなる場合でも、小さくなる場合でも、2乗した後の値の符号がプラスになります。 2乗した値を全て足しあわせます。(これを平方和と呼びます) この計算過程は分散の計算方法によく似ています。分散では、データの各値の平均からのズレを2乗して全て足し合わせます。さらにこれをデータ数(または自由度)で割

    三平方の定理で理解する回帰分析における分散の分解 - jnobuyukiのブログ
  • データの散らばりは誤差にも情報にもなる - jnobuyukiのブログ

    今回は、統計を使い始めの人が「ややこしい」と感じそうな話です。 データの散らばりとは 社会科学でも自然科学でも何かデータをとって(難しい言葉使いだと「実証的」)、そのデータから自分の考えを主張したい場合があります。このときデータは、2回以上測ります。なぜかというと、測るたびに値が異なる場合がほとんどだからです。測るたびに値が違う理由にはいろいろあって、「測る条件が毎回微妙に異なる」「測定装置の精度の限界」「実は全く違う条件が混ざっている」などなどです。そして、2回よりももっとたくさん測ることで、データは分布として考えることができます。 データの分布を表す3要素 データの分布は「形」「位置」「散らばり」で特徴付けられます。 「形」 形は全体的な形です。代表的な確率分布である正規分布は左右対称の山形です。サイコロの目の1から6がどの程度の頻度で出現するかというような場合には一様分布が想定されま

    データの散らばりは誤差にも情報にもなる - jnobuyukiのブログ
  • jnobuyukiのブログ

    今回は、統計学の知識があまりない人向けの記事にしようと思います。昨今のデータが社会中に溢れている環境では、データから上手に自分の知りたい情報を抜き出せるかどうかが重要だと思います。その時に、統計学に基づいた意思決定やデータの解釈を行うのが良さそうに見えます。そこでデータ分析が必要になるわけですが、自分自身に統計学の知識がなければ、他の人に分析をお願いすることもあるでしょう*1。今回は統計用語をできるだけ使わずに、でも統計学の知識の使い方に関するイメージをお伝えしたいと思います*2。 p値のpは? pは確率、probabilityを表しています。確率なので、pは0から1の値をとります。 何の確率なの? ここがとても理解しにくいところです。まずは、これが「ある仮定の元で現在手にしているデータが観察される」確率と考えましょう。確率が高いということは、その仮定の元で今持っているようなデータが出てき

    jnobuyukiのブログ
  • 1