タグ

統計に関するTensorのブックマーク (13)

  • Rで実践する統計的検定の初歩

    オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析を身に付けよう。連載2回目の今回は、統計的検定とは何かというざっくりした説明を軸に、やはりRで実際に計算をしてみます。 前回のおさらい 今回も統計処理言語の「R」を使って、いくつか具体的なデータから計算をしてみたいと思います。そもそも統計的検定とは何か、どういうことをやっているのかという概説と、統計的検定に対する批判についてもご紹介したいと思います。 まずは前回のおさらいです。 前回の終わりのほうで帰無仮説(きむかせつ)である「Jリーガーの月別出生数分布は日人の月別出生数分布と同じである」かどうかを統計学的に検査するために、カイ二乗検定を導入しました。 まずは前回の結果を再現することから始めましょう。必要なデータを読み込んで、変数を設定します。もしもすでに以下のコードを走らせている場合は、同じことを2度する必要はありません

    Rで実践する統計的検定の初歩
  • 第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT

    今ほど統計解析が必要とされる時代はありません。オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しましょう! 読者にとってRは、世に溢れるデータの密林を切り開くための“ブッシュナイフ”となることでしょう(編集部) 統計解析の必要性とリテラシー 21世紀になって、経営学者の故ピーター・ドラッカー氏が言うところの知識労働者は、ますます統計解析を必要する局面が増えてきました。この状況は、20世紀後半から21世紀に起きた計算機能力の増大とインターネットの発展を基礎に、3つの大きな潮流が現れたことがキッカケとなっているように思います。その3つの潮流とは、オープンソース、オープンデータ、そしてオープンアイデアです。後ろの2つは今筆者が名付けました。 オープンソースは、皆さんがご存知のように、Linux、Apache、PerlPythonRubyなどのO

    第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT
  • 第65回 統計の数学 相関係数を導く[後編] | gihyo.jp

    前回は相関係数を導く準備として、統計の数学を用いて回帰直線の式を導きました。今回は前回で準備した要素をもとに、最終的に相関係数を導きます。どうして相関係数というものが登場したかがわかる、小説に例えれば主人公の登場秘話のクライマックスといったところでしょうか。 決定係数 回帰直線の一次式の定数が求まりましたから、回帰直線の式と測定値の間の関係の強さを評価する方法が欲しくなりました。そこで、回帰直線の式によって得られた値の分散と、測定値の分散が近ければ、関係が強いと評価することにします。そのような式を導き出してみましょう。 測定値の集合に、最も良くあてはまる回帰直線が得られたとして、各xi に対応するyの値を(推定値)と書くことにします。 (65.1)-(64.27) ここで、を見てみましょう。 この式の総和部分の第2項は式65.2を代入して推定値を消去できます。 こうして、式65.5の第2項

    第65回 統計の数学 相関係数を導く[後編] | gihyo.jp
  • 第64回 統計の数学 相関係数を導く [前編] | gihyo.jp

    前回は相関係数とは何か、大変大雑把に紹介し、計算手順をJava言語で実装、テストするところまで行いました。今回は、相関係数というものがどういう筋道で導かれたものなのか、丁寧に追っていきます。途中の数式を極力省かずにたどります。全て高校数学までの内容です。 今回、そして次回の前後編は、まるっきり数学ばかりです。⁠”Javaでコンピュータ数学⁠”の看板に偽りあり?とおっしゃらず、だまされたと思って取り組んでみてください。プログラミングを専門としていれば、少なからず「効率の良い計算」を必要とする場面があります。すると、そのときに使う数学は、ちょうど今回出てくるような「合計」や「平均」と似た操作を上手に組み合わせることが多いのです。コンピュータは「単純なんだけれども、人の手と頭ではとても処理できないような、たくさんのデータを処理すること」が最も得意な機械だからです。 これから出てくる、「⁠数式のこ

    第64回 統計の数学 相関係数を導く [前編] | gihyo.jp
  • 第63回 統計の数学 相関係数とは[後編] | gihyo.jp

    前回は相関係数の計算方法を紹介しました。今回は、相関係数の計算手順をJava言語のプログラムとして書き表すことに挑戦してみましょう。 問題 CSVファイルのデータを読み込み、相関係数を計算するプログラムを作りましょう。 第61回の問題で作成したコードに、相関係数を計算するコードを加えましょう。それだけでは退屈ですから、コマンドライン引数でデータファイルを指定し、指定されたファイルを読み込んで処理するプログラムに変更してください。なに、ほんのちょっとした変更だけで済みます。⁠”Java コマンドライン 引数⁠”としてGoogleで検索すれば、たくさんのサンプルが表示されるでしょう。それらから盗み取って作成してください。 解説 問題 CSVファイルのデータを読み込み、相関係数を計算するプログラムを作りましょう。 計算に用いたデータファイルdata001.csvも前回と同じものを用いましょう。

    第63回 統計の数学 相関係数とは[後編] | gihyo.jp
  • 第62回 統計の数学 相関係数とは [前編] | gihyo.jp

    「大風がふけば桶屋がもうかる」とか「バタフライ効果」だとか、物事・出来事は関連を持って存在するものだと考えられています。ただ、それらの関連を明確に表現する方法が無いために、カンや推測で判断せざるを得ないことが多いですね。 スポーツの世界でも、真剣な勝負であるほど、ある攻撃を仕掛けたときに相手がどのような反応を示すか、というデータを集めて分析し、次の試合に備えます。あるプレーに対して、相手がどう対応する傾向が強いか、それを知ることが出来ればこんな有利なことはありません。もちろん、スポーツには即応性が要求されますから、最後の瞬間は能に頼るのですが。しかし、データのバックアップがあるのと無いのとでは、大きな違いです。 今回学習する内容は、一対一に対応するデータの集合について、線形な関係があるかどうかを数値で評価する方法についてです。数値化することで比較が可能になります。統計の数学の学習の終わり

    第62回 統計の数学 相関係数とは [前編] | gihyo.jp
  • 第61回 統計の数学 回帰直線[後編] | gihyo.jp

    前回は、回帰直線を数学的に詳しく学びました。今回は前回の知識を使って、Java言語で回帰直線のグラフを描きましょう。Officeソフトで回帰直線を得ることと、Java言語のプログラムで回帰直線を得ることの比較は、電卓での計算と筆算での計算の比較に例えられます。2つの結果が等しい、あるいは非常に近ければ、それぞれの方法が正しく実行されたかどうかの確認になります。 サンプルのソースコードが少々長くなりますが、解答の必要な部分はわずかです。是非ともくじけずに取り組んでみてください。 問題 最小二乗法を用いて、回帰直線の定数を求め、データにフィットするグラフを描きましょう。 今回の問題で示すソースコードには、最小二乗法を計算する部分のコードが欠落しています。コードを補充して完成させてください。 できる限り短いコードにするために、GUIでプログラムを終了させるためのコードを含みません。Windows

    第61回 統計の数学 回帰直線[後編] | gihyo.jp
  • 第60回 統計の数学 回帰直線[中編] | gihyo.jp

    今回は回帰直線を得るためのひとつの方法、最小二乗法をしっかりと紹介します。「⁠コンピュータ数学」と銘打っていますから、遠慮なく数式を出します。高校数学から少しはみ出す部分がありますが、記号の奔流にだまされず、実はそんなに難しくないことに気付いていただけると幸いです。 最小二乗法とは 最小二乗法[1]とは、調査や測定によって得られた「ばらつき」のあるデータに対して、最もまんべんなく当てはまる直線や曲線の式を得るための数学的手段です。直線を当てはめる場合を特に線形最小二乗法[2]といいます。 得られた回帰直線の式を使えば、データのない区間について、値の予想ができます。データに誤差があると考えられる場合は、真の値を予想することが出来ます。なにより、バラバラだったデータの集合が、ひとつの一次式で表現できるというのは魅力的です。 最小二乗法は、工学に限らず広い分野で活用されています。プログラマは最小

    第60回 統計の数学 回帰直線[中編] | gihyo.jp
  • 第58回 統計の数学 移動平均 | gihyo.jp

    バスケットボールでは、相手のフェイントに惑わされぬよう腰に注目します。どんなに激しく動いても、腰が動く先が相手の動く先だからです。柔道では釣り手(相手の襟をつかんだ手)の感覚に注意を払います。釣り手を通して伝わって来る相手の体(たい)の動きが、相手の技の全てを表しているからです。 とかく細かな動きにとらわれると、質をとらえることが難しくなってしまいます。今回学習するのは、データの細かな変動を緩和し、生のデータからでは得られなかった傾向をつかむための便利な手段です。 図58.1 子細に惑わず質を感じよ! 移動平均 移動平均[1]とは、細かな変動を含むデータをスムーズにする(平滑化する)方法です。 平均をとるというと、100個のデータの総計を、データの個数100で割って1つの値を得ることですが、これではデータ全体が増加傾向・減少傾向を持つのか、それともあるピークを持っている山形・谷型の分布

    第58回 統計の数学 移動平均 | gihyo.jp
  • ブログランキングサイト [TopHatenar]

    TopHatenarは、ブログを「購読者数」と「ブックマーク数」の2つの指標から分析することができるランキングサイトです。 [もっと詳しく]

  • はてなハイクチャート

    はてなハイクの投稿履歴のグラフ化「はてなハイク」各ユーザーの投稿履歴を曜日や時間帯によってグラフにします。 分析する件数は最大で最近の1000件程度。表記は日時間。 ※ 処理に時間がかかる場合があります。つながりにくい場合は時間をおいてからアクセスしてみてください。 ※ トップページに表示している小さなグラフは最近入力されたidから作成されています。 散布図・曜日別・時間帯別の各グラフの画像URLをグラフの下に表示しています。 ※ 散布図は多少小さくしてあります。 ※ PNGファイルなのでURLをコピペするとはてなハイク等に投稿できます(サーバ上のファイルは一定時間後に削除されます)。 » 追記(8.28)参照。   たとえば:id:jkondo  id:naoya  id:umedamochio 「はてなハイク」にスレッドができています。 URLによる画像投稿はてっきり「

  • はてブチャート

    はてなブックマーカーの履歴のグラフ化「はてなブックマーク」各ユーザーのブックマーク履歴について、公開されている日時データを曜日や時間帯によってグラフ化する実験的サービスです。 分析する件数の上限は最近の2000件(暫定)。表記は日時間。 ※ 処理に時間がかかる場合があります。つながりにくい場合は少々時間をおいてからアクセスしてみてください。 ※ トップページに表示している小さなグラフは最近入力されたidから作成されています。 散布図・曜日別・時間帯別の各グラフ画像(PNG)のURLをグラフの下に表示しています。 ※ 散布図は多少小さくしてあります。 たとえば:id:jkondo  id:naoya  id:umedamochio ※はてなハイク等に関して追記(8.28): サーバ上のファイルは一定時間後に削除されますので、はてなハイクなどの 画像ファイルを直接参照するサイト

  • 第56回 統計の数学 統計とは | gihyo.jp

    情報を最大限に活用して勝負に勝つ、というと、野球では野村克也監督のデータ野球が有名です。野球ではたくさんの選手がゲームに関係するため、データの処理・活用は大変なことでしょう。野球に限らず、相手のあるスポーツ、勝負事ではデータの活用が大きな力となります。相手の得意技・苦手を知っているのといないのでは、天と地の差があります。古くから「敵を知り、己を知れば百戦危うからず」(⁠※1)と言われます。試合の前には、せめて最近の相手の勝ち手、負け手ぐらいはチェックしておきたいものです。 さて、勝負事、すなわち実利に深く関わりのある数学が統計の数学です。客観的にデータを調査・理解したいとき、強力なツールとなります。これからしばらくの間、基的で簡単な統計の数学を学び、Java言語で活用していきましょう。 図56.1 データから戦略を練る 統計とは 統計[2]とは、実験や調査で得られたデータ(統計の用語で標

    第56回 統計の数学 統計とは | gihyo.jp
  • 1