タグ

関連タグで絞り込む (246)

タグの絞り込みを解除

統計学と統計に関するfukudamasa09のブックマーク (90)

  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • 野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball

    こんにちは.野球(とグルメ)の人です.*1 ビックデータや統計学が相変わらずアツい話題になっている中,野球好きとデータ好きをうならせるこんなが出版されました. [プロ野球でわかる! ]はじめての統計学 作者: 株式会社DELTA,佐藤文彦,student,岡田友輔出版社/メーカー: 技術評論社発売日: 2017/03/14メディア: 単行(ソフトカバー)この商品を含むブログを見る この,早速読ませてもらってとても良い!感銘を受けた!!という感じなのですが, そもそも世の中に野球統計学(セイバーメトリクス)のが増えてきた (野球好きでも)初心者がいきなり読んだら辛いもあるぞ! ???「ワイも野球データを集めて分析したいンゴ」 …などなど,クエスチョンやテーマができたので, 今まで学んだ・実践した野球統計学の学び方・・データを整理するのにいい機会だ! …ということで, レベル別の

    野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball
  • 統計的検定の考え方 - 大人になってからの再学習

    統計と検定というキーワードが出てくると、もうダメ、わからない。 この「統計的検定」というものの、基的な考え方を噛み砕いて書いてみる。 ================= 問題 実験を2回した。 1回目と2回目で異なる結果となった。 どんな実験であっても、結果が完全に同じになることはほとんどないので、異なる結果となるのは当然のこと。 これを見てA君とB君が次のように主張した。 A君:これって偶然におきたんだよ。 B君:偶然じゃないよ。何か特別な要因があったんだよ。 A君とB君、どちらが正しいだろう。 ================= このような問題に対して、根拠を持って説明しようとするのが統計的検定。 「偶然じゃない」というのを証明するのはとても難しいので、 「偶然に起きちゃった」と仮定した時に、その偶然が起きる確率を調べる。 (この確率を調べる方法は実験内容によって様々。その調べ方によ

    統計的検定の考え方 - 大人になってからの再学習
  • t検定

    この教材では,対応がないときのt検定について,上記の学説の優劣を判断していません.読者に判断してもらうための材料を提供しているレベルですのでよろしく.(2群の要素数が僅差であるような場合を除けば,多くの場合にWelch検定の方が自由度がかなり小さくなるので,レポートを見れば,どちらのt検定を用いたのかは分かると言われています.) 【平均の差の検定:要約】 ◎ 前提:以下において母集団は正規分布に従うとする. 幾つかのグループの「平均の差」が偶然的な誤差の範囲にあるものかどうかを判断したいとき,データの個数が少ないときは偶然的な誤差の範囲も大きくなるが,データの個数が多くなると平均の差が大きな値となることはめったにない. 同一の母集団からの標と見なしたときに2つのグループの平均の差が両側5%の確率の範囲に入るようなことはめったになく,このような場合は平均に有意差があるとして異なる母集団から

  • 「統計モデリングとは何なのか」をいま一度整理してみる - 渋谷駅前で働くデータサイエンティストのブログ

    もうタイトルを読んで字の如しなんですが、要は「統計モデリングってぶっちゃけ何なのよ?」という問題意識が最近非常に局所的ながら影響力の大きいところ*1から出てきておりまして。 で、僕もその議論にマターリ参加しながら「このもやもやしたものをどうやったらうまく表現できるかなー」と思っていて、何日かして自分なりにちょっと整理がついた気がするので、自分向けの備忘録も兼ねてちょっとブログにまとめてみることにしました。ちなみに@berobero11さんは既にこの議論についてまとめていらっしゃるようで。 あてはめの原理・あてはめを実装する計算法・モデル そうそう、今回もお題はこちらの久保先生の緑です。というかここから議論が始まったわけで。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 20

    「統計モデリングとは何なのか」をいま一度整理してみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 勇気を出して初めてのデータ分析 - データサイエンティストを目指して(1) -: 知財ファイナンス・モデリング

    今日は社会人がデータ分析をどのように独学で身に着けていけばいいかということを考えます。 ビッグデータがバズワードとなって以来、花形の学問のひとつとなったのが「統計学」です。統計学が重要なのは今も昔も変わらないわけですが、かつてはデータの分析になんて興味がなかった会社や部門がデータ分析を業務に役立てようとした結果、需要が増しています。 さて、私は社会人になってから統計学の素晴らしさを体感して勉強を始めました。筑波大学のビジネススクール(GSSM)で椿広計先生という大家の講義を受けて開眼しました。そういう意味では実に幸運だったと思います。 スクールに通って統計学を身に着けるというのも一つの手なのでしょうが、万人がスクーリングできるわけではありません。独学で身に着けて行かないといけない人が大半ではないでしょうか。大丈夫です。独学でも統計学を使いこなせるようになります。「数学」なんて・・・。という

    勇気を出して初めてのデータ分析 - データサイエンティストを目指して(1) -: 知財ファイナンス・モデリング
  • 実験計画法 - Wikipedia

    実験計画法(じっけんけいかくほう、英: Experimental design、Design of experiments)は、効率のよい実験方法を設計(デザイン)し、結果を適切に解析することを目的とする統計学の応用分野である。R・A・フィッシャーが1920年代に農学試験から着想して発展させた。特に1950年G・M・コックスとW・G・コクランが標準的教科書を出版し、以後医学、工学、実験心理学や社会調査へ広く応用された。またこれを基にして田口玄一による品質工学という新たな分野も生まれた。 他にも、マーケティングや新しい商品・サービスのコンセプトや仕様を考える場合などに用いられる、コンジョイント分析も有用である。 実験計画法の基的な原則は次の3つである。 局所管理化 影響を調べる要因以外のすべての要因を可能な限り一定にする。 反復 実験ごとの偶然のバラツキ(誤差)の影響を除くために同条件で反

    実験計画法 - Wikipedia
  • 政府統計の総合窓口 e-Stat

    社会人・大学生に向けたデータサイエンス・オンライン講座 「社会人のためのデータサイエンス演習」 実践的なデータ分析(統計分析)の手法を演習を交えて学べる講座です。 令和6年9月24日開講(受講料無料) 学ぼう!e-StatとjSTAT MAP 教育機関向けにe-StatとjSTAT MAPの活用方法を解説したサイトです。 e-StatとjSTAT MAPにおける基的な使い方や活用方法について、 中学校や高校の授業における活用等、実際の教育現場を想定し、 統計データを検索・収集から活用までのイメージがしやすいように 解説した動画を提供しております。

    政府統計の総合窓口 e-Stat
  • 環境と品質のためのデータサイエンス

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 海と魚と統計解析

    海と魚の世界にようこそ ★新サイト完成しました! 3秒後に自動的に移動します 変わらない方は こちらからどうぞ http://logics-of-blue.com/ 管理人の馬場真哉(北大院水)です。 当サイトは、海や魚に関する学問「水産学」や蓄積されたデータを有効活用するための「統計学・データマイニング」に関する話題を主として、それらにまつ わる色々な話を思いつくままに書き連ねたウェブサイトです。 また、フリーのデータ解析環境「R」のプログラムも展示しています。

  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
  • 産総研:ビッグデータから新たな科学的発見をもたらす統計手法を開発

    ビッグデータからの科学的発見のためには、正確な検定値(P値)の算出が必要。 超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。 物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。 JST 課題達成型基礎研究の一環として、産業技術総合研究所 生命情報工学研究センターの津田 宏治 主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学 大学院情報理工学研究科 計算工学専攻の瀬々 潤 准教授、理化学研究所 統合生命医科学研究センターの岡田 眞里子 チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。 自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる

  • 統計屋はどこまで給料をもらうべきか - Willyの脳内日記

    アカデミアでもビジネスでも統計解析のニーズは高くて、 データを分析して欲しいというような依頼は結構くる。 しかし、分析の対価としてどこまで給料をもらうべきなのか、 というのはなかなか難しい問題だ。 完全にビジネスとして外注して、博士レベルの統計屋に 分析をさせると、単価は1時間で100ドル前後のようだ。 以前に、コンサルティング会社が時給75ドルでそういった求人を 出していたから、マージンなどを考えれば大体そんなものなのだろう。 継続的に分析案件が発生するのであれば、 常勤で統計屋を雇えばもっと安く済む。 私も、大学院生の時は、医学部でデータの分析をして、 生活費や給料、健康保険料を払ってもらっていた。 一番厄介なのは、依頼者が案件をあくまで「共同研究」だと考えている場合である。 もちろん雑誌や学会等に投稿することになれば、 分析者として共著者に名前を入れてもらうことになるが、 それが統計

  • “ビッグデータ分析”は本当に必要か?

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 前回の寄稿では、リクルートにおけるビッグデータ活用の概要を紹介しました。 今回は、具体的な事例をお話しする前に、一度、視点をビッグデータそのものに戻して、“ビッグ”であることの意義や価値をビジネス的な視点や統計的な視点からレビューし直してみたいと思います。 ビッグデータの“ビッグ”とは、そのものずばり「データ量の膨大さ」を意味しますが、ここで一つ考えていただきたいことがあります。それは、何らかビジネスに役立つ知見を得るために、当に膨大なデータの分析が必要なのか、ということです。 インターネットが消費者のライフスタイルへ浸透している昨今、企業側に日々ストックされるウェブアクセスログのような消費者の行動データを、ビジネスに生かせないかと思

    “ビッグデータ分析”は本当に必要か?
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 統計ソフト・統計学習用データ

    統計関係総合リンク| 統計ソフト紹介関係| 統計ソフト会社| 共分散構造モデル| 統計ソフト おもらい君(リンク集 |全般|多変量解析・多次元尺度解析|多変量解析 |多次元尺度解析|基礎統計等| 分布|特定アプリマクロ)| 統計用データ| WWW上での統計処理| 人| 日の統計学関係| 日のメーリングリスト| <WWWで統計を学習しよう>| 検索系相談等| 統計教育リンク| 統計学用語集| case study(問題集)| 統計学から分散分析・重回帰まで| 総合的| 特定分野 ( 統計教育・注意| 研究法| 歴史| 測定| サンプリング| 分布| 検定力| meta-analysis| resampling| exact test| conjoint analysis| 実験計画法・分散分析 | 多変量解析| 因子分析・共分散構造モデル| multi level| 多次元尺度解析| グ

  • (おまけ) イラストでわかる自由度と不偏分散 

    文に戻る (おまけ) イラストでわかる自由度と不偏分散 標準偏差を計算するときに、なぜデータ個数ではなく自由度 n-1 を使うの? そもそも自由度って何? というご質問を受ける。 標準偏差の計算と自由度の関係がわかりにくいということで、文にバラバラに書いてあるものを、そこだけまとめなおしてみました。 <不偏分散の公式> 平方和S 不偏分散V=━━━━━━━━ 自由度n-1 不偏分散は 標準偏差 2(σ 2)の最もよい推定値になっています。偏っていないという意味で不偏と名づけられています。いっぽう、平方和をデータ個数で割ると、真の標準偏差値より小さめの数値となります。 標準偏差とは何か (真の平均 μ で算出したとき) 標準偏差とは何かを知るために、まず面積の平均値を計算することからはじめよう。 Q: いろいろな大きさの正方形があります。この平均的な面積の正方形をどうやって描けば いい?

  • 冪乗則 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "冪乗則" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2023年3月) この項目「冪乗則」は途中まで翻訳されたものです。(原文:en:Power law) 翻訳作業に協力して下さる方を求めています。ノートページや履歴、翻訳のガイドラインも参照してください。要約欄への翻訳情報の記入をお忘れなく。(2008年5月) 冪乗則にしたがうグラフの例。横軸が商品のアイテム数、縦軸が販売数量を表す。このモデルは「80:20の法則」として知られ、右に向かう部分はロングテールと呼ばれる。 冪乗則(べきじょうそく、power law)は、統計モデルの一

    冪乗則 - Wikipedia