タグ

statisticsに関するgfxのブックマーク (46)

  • 心理学とプログラミング

    −− 岡安晴のホームページへようこそ 私は心理学の研究・教育に従事しています。心理学においてもコンピュータは強力な道具です。心理学の研究や教育の過程で作成したサンプルプログラムなどをアップロードしてみました。

  • イランの選挙不正を統計学で暴く | Okumura's Blog

    でっちあげた数字なら下位桁が十分ランダムでないはずだ。実際ランダムでないという結果が出始めているようだ(Gelmanのブログのこことかこことか参照)。しかし,後者のコメントにもあるように,世界中の統計屋が隠れたパターンを見つけようとした場合,地球規模のBonferroni(多重比較の補正)が必要かもしれない。ちゃんと検証するまでは「統計学がイランの不正を暴いた」という記事を書くのは待ったほうがいい。 [2009-06-23] 続報

  • 連載:はじめMath! Javaでコンピュータ数学|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:はじめMath! Javaでコンピュータ数学|gihyo.jp … 技術評論社
  • 第59回 統計の数学 回帰直線[前編] | gihyo.jp

    どのスポーツにも「フェイント」があります。右と見せかけて左、前と見せて後ろ。フェイントをかけられる側としては、相手が何をしようとしているのか、それまでの相手の行動から、最後の一瞬までをしっかりと見届け、判断します。フェイントそのものは大きな動作であることが多いのですが、フェイントの後の行動は、それまでの行動とあまり大きく変えることは出来ないものです。「⁠流れ」というものがあります。流れを感じることが出来れば大変有利です。 今回から始まる回帰直線は、まさにそのような利点のある統計的な数学手法です。 では、始めましょう。 図59.1 変化の中から次を読む 線形回帰 線形回帰(※1)とは、ばらつきを持ちながらもある傾向をもった統計データに対して、その傾向をy=ax+bといった一次式で表現することをいいます。また、線形回帰によって得られた直線のことを回帰直線[2]といいます。 図59.2に例を示し

    第59回 統計の数学 回帰直線[前編] | gihyo.jp
  • パソコンでメールする親の子優秀 | Okumura's Blog

    読む親の子優秀 下位はワイドショー ベネッセ調査(朝日),詳細はどこに載っているのだろう? そういうポインタがない新聞記事は使いにくい。 を読む親の子だけではなく,パソコンでメールをする保護者の子も優秀だ。国語の成績上位1/4の5年生の保護者の35.6%がパソコンでメールをするのに対し,成績下位1/4の子の保護者では23.8%だった。もちろんパソコンでメールをしたから子どもの成績が伸びたわけではない(相関≠因果)。 それにしても,上位1/4と下位1/4の中での割合で云々するのはわかりづらいし,1/4という値を変えれば結果も変わる。パソコンでメールをする保護者の子の成績が,そうでない保護者の子の成績より偏差値にして何点高いというほうがわかりやすいように思う。検定もt検定で簡単にできるし。

  • 統計的に正しいランキングを行う方法をJavaで書く - バイオインフォマティクスって何ですか?

    Java | 統計的に正しいランキングを行う方法を見たのでちょっとJavaで書いてみる。はじめになにがしたいかというと、「レイティング」というのをご存じでしょうか。Amazonとかで商品を購入者が星つけて評価したりしてるやつ。ああいうので「良かったランキング」というのを作りたい。みんなが「購入して良かった」という評価をつけてる商品は、他の人にとっても「良かった商品」になる可能性が高い。いい商品だということがわかるわけです。問題点じゃあどういうふうにランキングをつければいいの?ということを考えると、次の問題にぶちあたる。評価してる人の数の違い。例えば、Aという商品は100人が評価していて、平均の星の数は 4.8 だとする。一方、Bの商品は1人が星5つで評価していたとする。このとき、Aの商品とBの商品ではどちらをランキング上位にすればいいだろうか?あなたならどちらを買いたい?Aはたくさんの人が

  • 統計的に正しいランキングを行う方法 - Hello, world! - s21g

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ポジティブ/ネガティブ投票による正しいランキング方法が以下の記事で紹介されています。 How Not To Sort By Average Rating この計算方法では、投票数が少ない場合には分散が大きく不正確な評価で、 投票数が多くなるにつれて分散が小さく正確な評価が得られているという事を考慮しています。以下数式 これはScoreの信頼区間を表しています。 この信頼区間の下界をランキングのスコアにすれば良い事になります。 ここで、は、 です。全体に占めるポジティブ投票数の割合ですね。 は標準正規分布上の 信頼区間の有意確率です。 さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか

  • Rで項目反応理論 - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですパッケージ † ltm(潜在特性モデル)パッケージ中のオブジェクト一覧 次のパッケージにも助けてもらっている。 MASS msm mvtnorm polycor sfsmisc ↑

  • 統計的検定よりグラフを! | Okumura's Blog

    p 値(有意確率)は,数学上のモデルと現実のデータが両立するか矛盾するかの度合を確率のことばで表したものである。2組のデータが近いか遠いかを表すものではない。たとえばタコとイカの重さの違いは p = 0.05 であるなどとは言わない。ところが,これに近い研究報告があった。度数分布図を描くだけでいいのに。 x と y を測定しながら,x の上位群・下位群について y の平均値の差を t 検定したものもあった。せっかくの測定値を上位群・下位群に分けるだけに使うのは情報の無駄だ。散布図を描くほうがはるかに多くの情報を伝えられるのに。 理解できていない統計的方法を使うよりも,コンパクトで情報量のあるグラフを描く努力をするほうが報われる気がする。

  • 卒論修論のために、これから統計学を学ぶつもりの人に知って欲しい5箇条 - 女教師ブログ

    大学1年から生物学部とか経済学部に在籍している人なんかは、「統計学」の体系的なトレーニング受けざるを得ないと思うので問題はないのですが、問題はそういうトレーニングをすっ飛ばしたまま、統計解析が必要になる人の場合。例えば、学部時代は英米文学専攻で統計に無縁だったけれど、大学院で英語教育系に転向した人。あるいは、教育方法論系の研究室にいてフィールドワークばっかりやっていたけれど、統計系の分析も必要になった場合。 1. 先輩から教えてもらわない まず、一番やってはいけないのが、先輩の院生に教えてもらうということ。「あの先輩に、色々教えてもらいたい(ハート)」など下心がある場合はまた別ですが、純粋に統計学“だけ”を学びたいなら先輩に教えてもらうのは危険です。 あなたは統計学初心者ならば、その先輩が「きちんと統計解析を理解している」かどうかを知る術はありません。周囲の評判というのもありますが、そもそ

  • 花粉症で1日約6,000円の損失って頭悪すぎでは? - A Successful Failure

    些か旧聞に属するがコンタック総合研究所の意識調査に基づき、花粉症で1日約6000円の“損失”とする報道が各種メディアでなされた。 花粉症による仕事などの生産性の損失を金額に換算すると1日平均5949円―。コンタック総合研究所が昨年末に行った意識調査で、そんなユニークな数字が明らかになった。平均額に近い5000円とした人の回答理由には、「時給2500円として2時間の作業遅れ」(30歳代男性)や「平均的な日給の4割程度」(30歳代女性)などがあり、時給や日給の2-5割程度を失うと考える人が多かった。 調査は昨年12月24、25の両日にインターネット上で実施。対象は全国の20-39歳の男女411人で、これまで春に花粉症になったことがある有職者に、花粉症により通常の生活から失うものや、取り戻したいものを聞いた。 国民全体で影響を受けると思う事柄を尋ねた質問(複数回答可)では、「仕事の効率が落ちるこ

    花粉症で1日約6,000円の損失って頭悪すぎでは? - A Successful Failure
  • 下手な散布図 | Okumura's Blog

    体力と学力に相関関係も 秋田ともに上位、大阪は危機感(朝日),とりあえず小学校: 体力 = c(105.48, 110.1, 111.34, 107.63, 116.1, 110.72, 110.12, 114.21, 109.96, 107.24, 111.97, 113.26, 106.26, 105.41, 114.52, 111.64, 112.38, 116.79, 108.68, 109.33, 109.83, 111.63, 106.31, 105.61, 105.98, 108.84, 105.6, 106.64, 105.7, 108.49, 112.04, 112.41, 112.66, 109.66, 109.23, 105.41, 109.89, 109.52, 103.8, 106.2, 108.47, 111.33, 111.78, 106.64, 112.43

  • 平均値とメジアンの違いを文科省もわかっていなかった | Okumura's Blog

    メジアンを使おうの「平均値以下は71.9%」で朝日新聞の取り上げ方を批判したが,実は文科省の発表そのものがおかしかった。2009-01-21に発表された 平成20年度全国体力・運動能力、運動習慣等調査結果 の下のほうのPDFのp.25,p.27にこの種の記述がある。p.27には中学校について「男女とも,全ての種目において,50%以上の生徒が昭和60年度の平均値を下回っている。」と書かれている。 一般に非対称な分布では平均値は全体を50:50に分けない。メジアン(中央値)は全体を50:50に分ける(それがメジアンの定義だ)。だから,この場合は,平均値どうしを比べるか,メジアンを使うべきであった。 ゆとり教育で現学習指導要領の中学校数学から統計分野が全廃されている。高校数学でも統計分野はほとんど履修されていない。新学習指導要領で復活するが,しばらくは後遺症が続きそうだ。

  • 気になりますね,やはり。 - Mochi's-Multitasking-Blog

    gfx
    gfx 2009/01/26
    実際のところ内部でどういう処理をしているのか気になります
  • 折れ線グラフもゼロから描かなければならないと教えられている? | Okumura's Blog

    ユーレイ棒グラフ?によしだはじめ先生が貴重なコメントをくださったので,改めてグラフの書き方がどのように教えられているかを調べ始めている。まず見つかったのが,東京都統計協会・グラフコンクール・グラフのしくみ。折れ線グラフまでゼロを省略してはならないとしている: <折れ線グラフを作る上での注意点> ・0の基線を必ず引きましょう。目盛りの基点は必ず0にします。20とか300とかに変えてはいけません。 …… ・必要に応じて波線を入れて途中の目盛りを省くのは、オーケーです。 例として温度変化の折れ線グラフを二つ挙げているが,いずれも(摂氏)0度から書かれている。負の温度になったらどうするのだろう。 折れ線グラフで表すものは間隔尺度でよい。意味のある0点がなくてよいし,0点から書き始める必要はない。これに対して,棒グラフは比率尺度(比例尺度)だという強いメッセージを持っている。だから雨量を棒グラフで表

    gfx
    gfx 2009/01/14
    知らなかった!
  • Data Analysts Captivated by R’s Power (Published 2009)

    R first appeared in 1996, when the statistics professors Robert Gentleman, left, and Ross Ihaka released the code as a free software package.Credit...Left, Stuart Isett for The New York Times; right, Kieran Scott for The New York Times To some people R is just the 18th letter of the alphabet. To others, it’s the rating on racy movies, a measure of an attic’s insulation or what pirates in movies sa

    Data Analysts Captivated by R’s Power (Published 2009)
  • PISA「盗難事件」問題ほか

    国際学力調査-文部科学省からリンクされている問題例(PDF:1,342KB リンク切れ アーカイブ)の最後に次のような「盗難事件に関する問題(PISA2000年調査及び2003年調査問題)」があります。 盗難事件 あるTVレポーターがこのグラフを示して、「1999年は1998年に比べて、盗難事件が激増しています」と言いました。 このレポーターの発言は、このグラフの説明として適切ですか。適切である、または適切でない理由を説明してください。 これは省略棒グラフを使って違いを不適切に強調したものです。グラフから数値を読み取るのは微妙ですが,それぞれ508,516だとしましょう。この違いは統計的に有意でしょうか。 盗難事件が1998年に起きる確率も1999年に起きる確率も等しいという帰無仮説を立てて,Rで検定してみましょう: > 508+516 [1] 1024 > binom.test(508,

  • どうして新聞は散布図を使わないか | Okumura's Blog

    このブログでは日教組票と学力:図示などいろいろ散布図を描いてマスコミのデータ解釈の誤りを指摘してきたつもりだが,マスコミはなかなか散布図を使ってくれない。これに関してNew York Timesのグラフィックス担当者がおもしろいことを言っていることをたまたま昨日見つけた(Infovis keynote: Matthew Ericson - information aesthetics):NYTが散布図を使わないのは,読者が散布図を理解できないためだ。多くの人は横軸を時間だと思ってしまう。NYTでも2004・2006年の選挙結果の比較に散布図を描いたことがあった(右図)が,ボツになった。 だから散布図は使うな,ではなく,教育者としては,だから散布図を学校で教えよう,という方向に話を持っていきたい。 NHK高校講座 | 数学基礎 | 第14回 統計 (1) ~データの見方~ では「散布図(相関

  • 名義尺度間の連関係数を算出するperlモジュール - ダウンロードたけし(寅年)の日記

    データマイニングを行う際に、適当な2つの変数にどれだけの相関関係があるのか確かめたくなったとします。 それらのデータはいわゆる「名義尺度」なデータ(地域別の野球チームの好き嫌いなど)だとしましょう。 名義尺度なデータ間における連関係数と言えば「クラメール係数」。 これをぱっと算出してくれるモジュールが欲しくなったので書いてみました。 Statistics::Associations - Calculates Association Coefficients of Nominal Scale. http://search.cpan.org/~miki/Statistics-Associations/ 使い方はこう。 use strict; use Statistics::Associations; my $asso = Statistics::Associations->new; my $m

    名義尺度間の連関係数を算出するperlモジュール - ダウンロードたけし(寅年)の日記
  • ユーレイ棒グラフ | Okumura's Blog

    おあしが無いから幽霊だと… 冗談はさておき、先日、中教審大学分科会が提出した「学士課程教育の構築に向けて」答申の案 http://www.mext.go.jp/b_menu/shingi/chukyo/chukyo4/gijiroku/001/08103112... のp.54に書かれている 我が国の高等教育に対する公的財政支援は,対GDP比等で見ると,他の先進諸国と比較して,手薄であると言わざるを得ない。 (中略) 多様な学生を受け入れていく中,積極的な投資がなければ,教育の質の向上はおろか,現状維持さえ困難となる。 というあたりを真剣に受け止めてほしいと、真剣に思います。