タグ

javaと統計に関するTensorのブックマーク (8)

  • 第65回 統計の数学 相関係数を導く[後編] | gihyo.jp

    前回は相関係数を導く準備として、統計の数学を用いて回帰直線の式を導きました。今回は前回で準備した要素をもとに、最終的に相関係数を導きます。どうして相関係数というものが登場したかがわかる、小説に例えれば主人公の登場秘話のクライマックスといったところでしょうか。 決定係数 回帰直線の一次式の定数が求まりましたから、回帰直線の式と測定値の間の関係の強さを評価する方法が欲しくなりました。そこで、回帰直線の式によって得られた値の分散と、測定値の分散が近ければ、関係が強いと評価することにします。そのような式を導き出してみましょう。 測定値の集合に、最も良くあてはまる回帰直線が得られたとして、各xi に対応するyの値を(推定値)と書くことにします。 (65.1)-(64.27) ここで、を見てみましょう。 この式の総和部分の第2項は式65.2を代入して推定値を消去できます。 こうして、式65.5の第2項

    第65回 統計の数学 相関係数を導く[後編] | gihyo.jp
  • 第64回 統計の数学 相関係数を導く [前編] | gihyo.jp

    前回は相関係数とは何か、大変大雑把に紹介し、計算手順をJava言語で実装、テストするところまで行いました。今回は、相関係数というものがどういう筋道で導かれたものなのか、丁寧に追っていきます。途中の数式を極力省かずにたどります。全て高校数学までの内容です。 今回、そして次回の前後編は、まるっきり数学ばかりです。⁠”Javaでコンピュータ数学⁠”の看板に偽りあり?とおっしゃらず、だまされたと思って取り組んでみてください。プログラミングを専門としていれば、少なからず「効率の良い計算」を必要とする場面があります。すると、そのときに使う数学は、ちょうど今回出てくるような「合計」や「平均」と似た操作を上手に組み合わせることが多いのです。コンピュータは「単純なんだけれども、人の手と頭ではとても処理できないような、たくさんのデータを処理すること」が最も得意な機械だからです。 これから出てくる、「⁠数式のこ

    第64回 統計の数学 相関係数を導く [前編] | gihyo.jp
  • 第63回 統計の数学 相関係数とは[後編] | gihyo.jp

    前回は相関係数の計算方法を紹介しました。今回は、相関係数の計算手順をJava言語のプログラムとして書き表すことに挑戦してみましょう。 問題 CSVファイルのデータを読み込み、相関係数を計算するプログラムを作りましょう。 第61回の問題で作成したコードに、相関係数を計算するコードを加えましょう。それだけでは退屈ですから、コマンドライン引数でデータファイルを指定し、指定されたファイルを読み込んで処理するプログラムに変更してください。なに、ほんのちょっとした変更だけで済みます。⁠”Java コマンドライン 引数⁠”としてGoogleで検索すれば、たくさんのサンプルが表示されるでしょう。それらから盗み取って作成してください。 解説 問題 CSVファイルのデータを読み込み、相関係数を計算するプログラムを作りましょう。 計算に用いたデータファイルdata001.csvも前回と同じものを用いましょう。

    第63回 統計の数学 相関係数とは[後編] | gihyo.jp
  • 第62回 統計の数学 相関係数とは [前編] | gihyo.jp

    「大風がふけば桶屋がもうかる」とか「バタフライ効果」だとか、物事・出来事は関連を持って存在するものだと考えられています。ただ、それらの関連を明確に表現する方法が無いために、カンや推測で判断せざるを得ないことが多いですね。 スポーツの世界でも、真剣な勝負であるほど、ある攻撃を仕掛けたときに相手がどのような反応を示すか、というデータを集めて分析し、次の試合に備えます。あるプレーに対して、相手がどう対応する傾向が強いか、それを知ることが出来ればこんな有利なことはありません。もちろん、スポーツには即応性が要求されますから、最後の瞬間は能に頼るのですが。しかし、データのバックアップがあるのと無いのとでは、大きな違いです。 今回学習する内容は、一対一に対応するデータの集合について、線形な関係があるかどうかを数値で評価する方法についてです。数値化することで比較が可能になります。統計の数学の学習の終わり

    第62回 統計の数学 相関係数とは [前編] | gihyo.jp
  • 第61回 統計の数学 回帰直線[後編] | gihyo.jp

    前回は、回帰直線を数学的に詳しく学びました。今回は前回の知識を使って、Java言語で回帰直線のグラフを描きましょう。Officeソフトで回帰直線を得ることと、Java言語のプログラムで回帰直線を得ることの比較は、電卓での計算と筆算での計算の比較に例えられます。2つの結果が等しい、あるいは非常に近ければ、それぞれの方法が正しく実行されたかどうかの確認になります。 サンプルのソースコードが少々長くなりますが、解答の必要な部分はわずかです。是非ともくじけずに取り組んでみてください。 問題 最小二乗法を用いて、回帰直線の定数を求め、データにフィットするグラフを描きましょう。 今回の問題で示すソースコードには、最小二乗法を計算する部分のコードが欠落しています。コードを補充して完成させてください。 できる限り短いコードにするために、GUIでプログラムを終了させるためのコードを含みません。Windows

    第61回 統計の数学 回帰直線[後編] | gihyo.jp
  • 第60回 統計の数学 回帰直線[中編] | gihyo.jp

    今回は回帰直線を得るためのひとつの方法、最小二乗法をしっかりと紹介します。「⁠コンピュータ数学」と銘打っていますから、遠慮なく数式を出します。高校数学から少しはみ出す部分がありますが、記号の奔流にだまされず、実はそんなに難しくないことに気付いていただけると幸いです。 最小二乗法とは 最小二乗法[1]とは、調査や測定によって得られた「ばらつき」のあるデータに対して、最もまんべんなく当てはまる直線や曲線の式を得るための数学的手段です。直線を当てはめる場合を特に線形最小二乗法[2]といいます。 得られた回帰直線の式を使えば、データのない区間について、値の予想ができます。データに誤差があると考えられる場合は、真の値を予想することが出来ます。なにより、バラバラだったデータの集合が、ひとつの一次式で表現できるというのは魅力的です。 最小二乗法は、工学に限らず広い分野で活用されています。プログラマは最小

    第60回 統計の数学 回帰直線[中編] | gihyo.jp
  • 第58回 統計の数学 移動平均 | gihyo.jp

    バスケットボールでは、相手のフェイントに惑わされぬよう腰に注目します。どんなに激しく動いても、腰が動く先が相手の動く先だからです。柔道では釣り手(相手の襟をつかんだ手)の感覚に注意を払います。釣り手を通して伝わって来る相手の体(たい)の動きが、相手の技の全てを表しているからです。 とかく細かな動きにとらわれると、質をとらえることが難しくなってしまいます。今回学習するのは、データの細かな変動を緩和し、生のデータからでは得られなかった傾向をつかむための便利な手段です。 図58.1 子細に惑わず質を感じよ! 移動平均 移動平均[1]とは、細かな変動を含むデータをスムーズにする(平滑化する)方法です。 平均をとるというと、100個のデータの総計を、データの個数100で割って1つの値を得ることですが、これではデータ全体が増加傾向・減少傾向を持つのか、それともあるピークを持っている山形・谷型の分布

    第58回 統計の数学 移動平均 | gihyo.jp
  • 第56回 統計の数学 統計とは | gihyo.jp

    情報を最大限に活用して勝負に勝つ、というと、野球では野村克也監督のデータ野球が有名です。野球ではたくさんの選手がゲームに関係するため、データの処理・活用は大変なことでしょう。野球に限らず、相手のあるスポーツ、勝負事ではデータの活用が大きな力となります。相手の得意技・苦手を知っているのといないのでは、天と地の差があります。古くから「敵を知り、己を知れば百戦危うからず」(⁠※1)と言われます。試合の前には、せめて最近の相手の勝ち手、負け手ぐらいはチェックしておきたいものです。 さて、勝負事、すなわち実利に深く関わりのある数学が統計の数学です。客観的にデータを調査・理解したいとき、強力なツールとなります。これからしばらくの間、基的で簡単な統計の数学を学び、Java言語で活用していきましょう。 図56.1 データから戦略を練る 統計とは 統計[2]とは、実験や調査で得られたデータ(統計の用語で標

    第56回 統計の数学 統計とは | gihyo.jp
  • 1