タグ

統計学に関するdelegateのブックマーク (148)

  • C++で統計解析 - sfchaos's blog

    先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました. 統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗検定等) 多変量解析(線形回帰,一般化線形モデル,判別分析,主成分分析,因子分析等) 機械学習(サポートベクタマシン,ランダムフォレスト等) に分けてライブラリがサポートする機能を整理してみると,下表のようになります*1.ここでは,Scytheなどの数値計算用のライブラリ,Shogun, Vowpal Wabbitなどの機械学習に特化したライブラリは対象外としています.他にもこんなライブラリがあるよ!という方は是非教えてください. ライブラリ 記述統計量 統計的検定 多変量解析 機械学習 Boost.Accumulators ○

    C++で統計解析 - sfchaos's blog
  • 統計学の時間 | 統計WEB

    統計学の時間 統計学の基礎から応用までを丁寧に解説しています。「Step1. 基礎編」は、大学で学ぶ統計学の基礎レベルである統計検定®2級の範囲をほぼ全てカバーする内容となっています。最後まで読み進めることで、統計検定®2級に合格できる力がつくことを目標にしています。 学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を学ぶ方にもイメージしやすい内容になっています。学習ページで勉強した後は、練習問題で腕試しができます。練習問題のすぐ下に解説を掲載していますので、理解度をすぐに確認することができます。 一通り勉強して知識が身に着いたら、実際に統計検定®を受験するのがオススメです。 統計WEBでは、統計検定®の受験者を応援しています! ※統計WEBを使って統計検定®に合格された方の『合格者の声』をブログに掲載しています。こちらからご覧ください。 Step0. 初級編 1. デー

    統計学の時間 | 統計WEB
  • 統計的検定とか有意とか考えれば考えるほど何もわからない - と。

    統計学はやはり人類には早いと思う 仕事で数理統計学を勉強していて、趣味統計検定1級を取ろうとしているのですが、 今日は統計的検定の話をしようと思っています。 というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、 統計的検定ってそもそも一体何であるのかについて、よく理解できた形で 議論をしている場面に出会ったことがあまりないと思ったからです。 この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、 具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、 説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。 どこまでを話すか? 実際、統計的検定や、その結果の判断軸などについては完成した合

    統計的検定とか有意とか考えれば考えるほど何もわからない - と。
  • ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話|NHK取材ノート

    東京の多摩川沿いの浸水リスクがある地域で、「なぜか人口が増えている」ことをデータ分析ソフトを使って明らかにして、その背景を探りました。 次にこんな記事も書きました。 南海トラフ巨大地震によって津波の浸水が想定されている区域で、高齢者の施設がすごく増えていることを示した記事です。 どちらの記事も、誰もが入手できる「オープンデータ」と、後述する「GIS」という分析システムを使って隠れた事実を浮き彫りにした、データジャーナリズムのお手などと紹介されたこともあります。 そしてつい最近手がけたのがNHKスペシャル「〝津波浸水域〟の高齢者施設」。蓄積してきた分析のノウハウを注ぎ込んだ番組です。 「データ分析」というと専門的で、すごく難しく思う方もいるかもしれません。しかし最初に述べたように私は数年前までは、パソコンを満足に使えない、データ分析とは無縁の「ガラケー記者」だったのです。当に。 そんな私

    ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話|NHK取材ノート
  • 有意差とは?帰無仮説/対立仮説の考え方とビジネスでの活用を解説-GMOリサーチ

    有意差とは統計学の指標の一つです。 仮説と標の観察による結果の差が出たとき、その差が「誤差の範囲内」なのか「誤差では済まされない意味のある差」なのかを明らかにする必要があります。 「意味のある差」のことを統計学では「有意差」と表現します。 記事では有意差の概要や使い方について解説します。 “仮説”と”実際の観察によって導き出された結果”の差が誤差では済まされないような、統計的に意味がある差を「有意差」と呼びます。 例えば、無作為に抽出した女性のグループと男性のグループで「ある商品Aを購入したことがある」という回答を収集したとします。 その回答が、 女性=2,000回答 男性=1,000回答 だった場合、明らかに女性の方が購入率が高く、ほとんどの場合「有意差がある」と言えそうではないでしょうか。 しかし、 女性=1,003回答 男性=1,000回答 といった場合はどうでしょうか? たしか

    有意差とは?帰無仮説/対立仮説の考え方とビジネスでの活用を解説-GMOリサーチ
  • 【統計学入門】ゼロから学ぶ2標本t検定 -Pythonによる実践あり-|はやぶさの技術ノート

    これらは『2つの母集団を比較して、差があるか否かを検証する問題』と考えることができます。 ただし、私たちは母集団から抽出した標しか観測できないため、『2種の標から2母集団を推定・比較する2標問題(two-sample-problem)』として解くことになります。 標平均の差を比較する 独立した2つの正規母集団 N(μ1, σ1^2)、N(μ2, σ2^2)から大きさm, nの標を抽出し、標:x1, x2, …, xm と 標:y1, y2, …, yn の分布を可視化したものが、下図のパターン1またはパターン2だったとします。

    【統計学入門】ゼロから学ぶ2標本t検定 -Pythonによる実践あり-|はやぶさの技術ノート
  • Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した

    Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概

    Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した
  • 感度とか特異度とか | Tech Blog | CRESCO Tech Blog

    何がどう違うのでしょう? 何でたくさんあるのでしょう? もちろんやウェブで調べれば出てきますが、意外とすっきり簡潔に解りやすくまとめた資料がありません。いろいろな人に説明せねばならない機会も増えたし、それではということで自分で説明図などを作ってみました。

  • 『データ分析のための統計学入門』pdf版が無料公開! 実際に読んだ感想は……?

    データ活用は過度な期待を超え、徐々にビジネスパーソンの基礎的なノウハウとして定着し始めています。データサイエンティストでなくとも、データ分析の基礎的な考え方やその手法について学びたいという方は多いはず。 皆さんは、2021年3月に初学者向けの入門書『データ分析のための統計学入門 原著第4版』日語版pdfが何と無料で公開されたのをご存じでしょうか? 同書籍は以下のリンクから、閲覧可能です。 http://www.kunitomo-lab.sakura.ne.jp/2021-3-3Open(S).pdf 記事では同書を書評し、データ活用・統計学初学者におすすめの使い方をレクチャーします。 『データ分析のための統計学入門』の内容は? 何が学べる? 『データ分析のための統計学入門』は米国のNPO OpenIntroが発行した書籍で、Mine Cetinkaya-Rundel、David M D

    『データ分析のための統計学入門』pdf版が無料公開! 実際に読んだ感想は……?
  • 「Python」×「株価データ」で学ぶデータ分析のいろは

    日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく連載。最終回はローソク足とともにこれまでに計算したオシレーターなど一式を1つのグラフで表示する方法や過去の株価データを基にした株価予測の方法を解説します。

    「Python」×「株価データ」で学ぶデータ分析のいろは
  • 統計学の基本用語.母数は分母でも全数でもない!:母数とは母平均や母分散のことである

    統計学の基用語.母数は分母でも全数でもない!:母数とは母平均や母分散のことである 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2024 年 2 月 14 日 この用語問題に関しては, X (旧 Twitter) での黒木玄さんのコメント (X 2024年2月14日午前10:08 およびその後の補足) も非常に参考になる。 特に,以下のコメントである(X 2022年6月3日 午前7:16)。 現実とモデルの混同のような非科学的な考え方に繋がる曖昧な説明の仕方こそ、徹底殲滅するべき対象であり、「標数」やら「分母の数の意味での母数」という言葉の使い方にうるさくなってもいいことが全然ないと思う。 以上の指摘を十分に念頭に置いた上で,以下の説明も読んでほしい。 統計学で扱う「母数」を英語にすると, parameter と言う。「パラメータ」は,日語でも時々使われる単語である。以下に示すよ

  • 東京の感染者数を5週間ぶん予測した (7月5日版)

    (※ 新しい予測を公開しました→ 東京の感染者数を5週間ぶん予測した (7月12日版)) 東京の感染者数を5週間ぶん予測した (6月21日版)、(6月28日版) の続き。まえがきは初回(6月21日版)の記事でご覧ください。 先週の予測は、日曜までの週単位で 4679人(6月21日版)、4502人(6月28日版) でしたが、現実は 4074人 となりました。少し下振れしたのでそれに合わせて今後の予想も下振れしますが、必ずしもこれから毎週累積で下振れしていくというわけではなく、週単位ではあくまで上下ともにブレる可能性が半々になるように予測しています。また、前回の記事で書いた上振れの時と逆ですが、下振れした週の感染者数は都民をそれほど緊張させず、3週後のブレーキが弱くなるため、やはり全体としての影響は限定的になります。 下振れのいちばん大きな要因は、人流データによるものでした。というのも、予測に

    東京の感染者数を5週間ぶん予測した (7月5日版)
  • 初学者からの統計学10冊(社会科学向き) - Qiita

    はじめに 千葉大学・株式会社Nospareの川久保です. 今回は,初学者レベルから学部上級レベルの統計学関連の教科書を,順を追って紹介していきます.普段,経済学をはじめとする社会科学(経済学・経営学や政治学など)を学ぶ学生に教えているので,タイトルに「社会科学向き」と入れてみましたが,これから紹介する多くのは,他の応用でも役に立つものが多いはずです. 入門書 大屋幸輔『コア・テキスト統計学』 厳密さと初学者に対する分かりやすさのバランスのとれたです.演習問題を集めた副読もあるので,こちらと併せて学習すると効果的だと思います. 久保川達也・国友直人『統計学』 入門書としては,やや硬派な教科書ですが,しっかり学びたい人にはお勧めの教科書です.「1.記述統計」「2.確率」「3.推測統計」と標準的な構成をしている中,最後の第4部では社会・経済データとして標調査や時系列分析の話題にも触れてい

    初学者からの統計学10冊(社会科学向き) - Qiita
  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
  • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

    みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびにを買い、そのでわからないことがあればまた屋に行き、自分が少しでも理解できそうなを探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋がだらけになってしまいました。 正直に言って読み切ったという実感のあるはありません。しかし、実務で何かしらお世話になったは数多くあり、そういうは手放さずに手元に置いています。

    データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
  • 「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿

    「統計的に有意差がないため、2つのデータには差がない」──こんな結論の導き方は統計の誤用だとする声明が、科学者800人超の署名入りで英科学論文誌「Nature」に3月20日付で掲載された。調査した論文の約半数が「統計的有意性」を誤用しており、科学にとって深刻な損害をもたらしていると警鐘を鳴らす。 「統計的に有意差がない=違いがない」は間違い 例えば、ある薬の効能を調べたいとする。統計学では一般的に「仮説検定」を行って薬を与えたグループとそうでないグループを比較し、薬効の指標となる何らかのパラメータに統計的有意差があるかどうかを見る。仮説検定は、2つの事象の差異が偶然生じたものかどうかを統計的に結論付けるものだ。 もし、統計的有意差がある(薬を与えた群のパラメータの方が有意に大きい)なら「薬には効能がある」という結論を導けるが、有意差がなかった場合はどうだろうか。 「統計的有意差がある=薬効

    「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿
  • 若き統計学者の日本

    何か数理モデルを使って予測をしその結果をもとに政策運営を行う,と言う話になると,ある場所から決まって「ルーカス批判」がー,という声が聞こえる.今回は「非常時の予測」を軸に,ルーカス批判って別にこういう時どうでもよくない?って話を書こうと思う. ルーカス批判とは平たく言うと,過去のデータから何か数理モデルに即して予測して政策を行うと,政策の変更に応じて国民なりは行動を変化させるので,行動が変わらないと仮定したモデルで政策運営を行うのは妥当ではない,とかこの位の意味になると思う.なのでこの批判をかわすような数理モデルに基づいて政策運営を行うべきだ,と主張する人達が少なからずいる. ルーカス批判自体は何を言いたいのか理解出来るのだけれど,じゃあ特に「非常時」に何かを予測して政策運営をする際に必要な概念か?と言われると,正直どうでもいいと僕は思う.というかこんなこと気にしてたら,一生モデルを基に何

  • 尤度とはなんだったのか

    TL;DR Ubie という会社で働いていて尤度とかを改めて見直す機会があったのでブログにまとめておく 尤度主義のような、自然と使っていたが明示的には知覚できてなかったものの存在を知った 主義や哲学に関しても言及するが、それらの良し悪しについて述べるものではない 4/1 から Ubie という会社に入社して、データ分析的な仕事やコードを書いたり楽しく働いている。 保有するデータのそのものが面白くて、今のところ主にこれを改善していくところに関わっていて、機械学習的な内容はあまりやっていない。 仕事をしていると尤度とかよく使うが、使っているうちにこれまで雑に理解してた部分が散見されたので、そもそも尤度とはなんだったのかをちょっと復習している。 色々調べていくとだいぶ広くて深いところに入り込んでしまいそうになるので、現在の理解を一部ブログにて整理しておこうというのがこのエントリである。 技術的に

    尤度とはなんだったのか
  • 『コロナ感染マップ、誰も作らないので私が作りました』

    マスメディア報道のメソドロジーマスメディア報道の論理的誤謬(ごびゅう:logical fallacy)の分析と情報リテラシーの向上をメインのアジェンダに、できる限りココロをなくして記事を書いていきたいと思っています(笑) 緊急事態宣言が都道府県ごとに解除される中、ハッキリ言ってピントがズレているのは、専門家会議が感染者の【空間分布 spatial distribution】を定量的に把握することなく、都道府県ごとの感染者数の時間変動のみを参考にブレイン・ストーミングによって緊急事態の解除の可否を検討していることです。 緊急事態の空間的な解除を見極めるにあたって、当に重要なことは、特定地域の感染率の空間分布の挙動が時間の経過とともにどのように変化しているかという【時空間挙動 spatio-temporal behaviors】を把握することです。また、同一都道府県内においても歴然とした【不

    『コロナ感染マップ、誰も作らないので私が作りました』
  • 西浦先生らによる実効再生産数の統計モデルを解説&拡張する試み - StatModeling Memorandum

    先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。 モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定(Maximum Likelihood Estimation, MLE)を使ったMLE版(Sungmok Jungさん作成)と 、ベイズ推定版(Andrei Akhmetzhanovさん作成)があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版(以降、元コードと呼びます)の流れを簡単に説明し、その後でその拡張を試みます。 ベイズ推定版の流れ 大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。 データの集計 まずは日付ごとの

    西浦先生らによる実効再生産数の統計モデルを解説&拡張する試み - StatModeling Memorandum