タグ

Statisticsに関するscrewboundのブックマーク (25)

  • 統計の不備と、各種統計の「相関」の話 - 山形浩生の「経済のトリセツ」

    Executive Summary 統計の信頼性について疑問を呈した柳下毅一郎のツイートを、山形は一蹴した。が、その後勤労統計の集計方法の不備が露見した。ここから、この統計は捏造であり、それが相関しているならすべての統計が捏造だ、という極論を述べたブログが出た。しかし統計は、一かゼロか、完璧かすべて捏造か、というものではない。またその相互の関係も、機械的な関係があるということではない。信頼性の非常に広い幅の中で上下するだけなので、実際にどんな不備があってどのくらい影響を及ぼすのかを具体的に考えないと、妥当性のない陰謀論に流れてしまうだけだ。 はじめに しばらく前に、柳下毅一郎がこんなツイートをした。 アベノミクスで経済がよくなってるとおっしゃるリフレ派の方々は、なぜ財務省の出す経済指標は捏造されてないと信じられるのだろうか。— Kiichiro Yanashita (@kiichiro)

    統計の不備と、各種統計の「相関」の話 - 山形浩生の「経済のトリセツ」
  • 統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか - Unboundedly

    機械学習など主に予測を目的とした統計手法に強いイメージのPythonでしたが、統計的因果推論を行うためのライブラリ、“DoWhy”がついにリリースされました。 DoWhy | Making causal inference easy — DoWhy | Making Causal Inference Easy documentation これまで因果推論があまり浸透してこなかった*1データサイエンス界に新しい風が吹くのではと期待が高まります。 一方でこのパッケージが何を可能にし、逆に何ができないのかを理解しなければ、雑なデータ分析が増えて逆に有害なのではと思い、今回ブログを書くことにしました。 先に言っておくと、私自身はPythonをメインに使っているわけではありません(使ったことはあるので一応コードを読んで何が起こっているかくらいはわかります)。したがって記事の目的は、DoWhyライブ

    統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか - Unboundedly
  • ヒストグラムベースの異常検知アルゴリズムHBOSとは何か

    HBOSの概要 HBOSはヒストグラムベース、統計ベースの教師なし異常検知アルゴリズムです。非常にシンプルでわかりやすく、論文も読みやすいです。ラベルがついていないデータセットに対して適用し、各データについて異常度(Anomaly Score)を算出してくれます。利用者は結果と相談しながらこの異常度に対して閾値を決め、それ以上を異常として扱うような形で使うことができます。こちらの研究レポートでHBOSが速度・検出精度ともに優秀であることが紹介されています。 ヒストグラムベースとはどういうことか HBOSでは各特徴それぞれについて全データの値からヒストグラムを作成し、それぞれのビン(ヒストグラムのいわゆる縦棒のこと)について、所属するデータの数が多ければそのビンに所属するデータは正常、少ないならば異常という考え方でスコアが付けられます。個人的にはクラスタリングでの異常検知にも近い考え方だと思

    ヒストグラムベースの異常検知アルゴリズムHBOSとは何か
  • こんにちは統計学:Pythonによるχ2乗検定・t検定・U検定・分散分析・多重比較・相関係数の計算 - すがやみつる

    マンガを描くとき、シナリオを先に書く人もいるかと思います(私は、そうしています)。 また、原作付きマンガを描いている人で、シナリオをテキストファイルやワープロソフトのファイルで受け取る人もいるでしょう。 いまマンガを描く人は、ほとんどがClipStudioを使っているはずです。そのようなマンガ家なら、シナリオからネーム部分(セリフとナレーション)だけ抜き出せたら便利だと思いませんか? そこで自作シナリオのネーム部分だけを抜き出し、句読点や「!・!!・?・!?・空白」が来ると、そこで改行するプログラムを作ってみました。 元のシナリオを「input.txt」という名前で保存し、同じフォルダにこのプログラムを置いてください。Pythonのインストールがすんでいれば、あとはこのプログラムのアイコンをダブルクリックするだけで、改行されたネームだけになったファイルが「output.txt」という名前で

  • イチローは日本プロ野球で生涯打率1位の選手よりもすごいのかベイズ統計で検証する

    Do you want to subscribe to the notification email? Once subscribed, notification emails will be sent to your registered email address when the insight is republished or refreshed by the scheduling.

    イチローは日本プロ野球で生涯打率1位の選手よりもすごいのかベイズ統計で検証する
  • 確率統計-機械学習その前に

    2021/11/20 内容や記載を大幅に拡充しました(合わせて SpeakerDeckに移動しました) https://speakerdeck.com/hidekatsu_izuno/que-lu-tong-ji-ji-jie-xue-xi-sofalseqian-ni 社内勉強会に流用予定の資料です。変なところがあったら連絡いただきたく。Read less

    確率統計-機械学習その前に
  • 統計ダッシュボード

    知りたい地域の人口ピラミッドを時系列で表示します。人口構造の変化や将来の人口規模を確認することができます。

  • 『ダメな統計学 悲惨なほど完全なる手引書』で科学の基盤をより確かなものにする - HONZ

    世界は数字であふれている。政治家の支持率から健康品が病気のリスクを下げる確率まで、ニュースや広告を介して、新たな数字が次々とわたしたちに届けられる。しかしながら、その数字がどのようにつくられ、どのような意味を持つのかを真に理解することは容易ではない。特に、数字の送り手に悪意がある場合には注意が必要だ。50年以上前に出版された世界的ベストセラーの『統計でウソをつく法』で知られるように、統計を恣意的に用いれば、多くの人を欺くことはそれほど困難ではないのだ。 それでは、きちんとした科学研究室・大学によって裏付けられたデータならば無条件で信用できるのだろうか。そうではない、と統計学の講師でもある著者のアレックス・ラインハートはいう。科学者たちに悪意があり、統計学を歪めて使用しているわけではない。科学者たちもまた、わたしたち一般市民と同様に統計学をきちんと理解していないというのだ。 科学者は、統計

    『ダメな統計学 悲惨なほど完全なる手引書』で科学の基盤をより確かなものにする - HONZ
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • Optimizelyを使ってクビになりかけたワケ ~統計学が苦手なマーケターへの薦め~ | POSTD

    (訳者注: 検定手法について、この記事には一部内容が古い部分があります。Optimizelyは現在、両側検定を採用し、独自開発したより精度の高い統計手法(Stats Engine)でテスト結果を表示しています。Stats Engineに関する記事: 日語 ・ 英語 ) 私たちがSumAllでA/Bテストを一斉にスタートさせて6ヶ月が経ち、あまりよくない結末を迎えました。それは勝算があるとした結果のほとんどが新規ユーザーの獲得改善にはつながらなかったことです。それどころか、私たちは失敗したのです。そして私の一番の責任はユーザー獲得の増加であるということを考えると、当に最悪の状況でした。私にとっても、私のキャリアにとっても、そしてSumAllにとっても。 過去に A/BテストとWebサイト・パーソナライゼーションの会社 に勤めていた経験から(はっきり言うとMonetateはOptimize

    Optimizelyを使ってクビになりかけたワケ ~統計学が苦手なマーケターへの薦め~ | POSTD
  • 『ダメな統計学』冊子PDFの公開|Colorless Green Ideas

    『ダメな統計学』表紙 現在の科学研究において統計が誤用されていることが非常に多く、そのために科学研究の信頼性が揺らいでいることを記した『ダメな統計学』の冊子PDFを公開する。これは、アレックス・ラインハート氏が書いたStatistics Done Wrongの全訳である。理解を深めるために、訳注を比較的豊富に加えた。 2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』の冊子PDFに比べると、大幅に加筆されている。ページ数で言うと2倍以上になっている。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 『ダメな統計学

    『ダメな統計学』冊子PDFの公開|Colorless Green Ideas
  • 世界で一番住みやすい場所を計算してみた

    こんにちは。河です。 東京は寒すぎず、カラっとした過ごしやすい日が続いてます。 こんな日が続くと日は世界で一番快適な国なんじゃないか、なんて思ってしまいますね。 ところで当に世界で一番過ごしやすい地点ってどこなんでしょう? 気象庁が出している数値予報データから計算してみました。 全球の気温 (2013.11.30 06:00+UTC) (Background image taken from TerraMetrics for educational purposes) 方法 まず元データとして、気象庁が計算している6時間毎の全球域数値予報モデルを取得しました。 これは、6時間毎に地球を0.5度毎に区切った領域全ての気温、湿度、風速、気圧などを計算したデータです。 (ちなみにSynthetic Skyはこれの1時間毎のデータを使ってます) これを使えば世界中の好きな場所の温度(上図)や

    世界で一番住みやすい場所を計算してみた
  • 交差検証 - Wikipedia

    交差検証(交差確認)[1](こうさけんしょう、英: cross-validation)とは、統計学において標データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法を指す[2][3][4]。データの解析(および導出された推定・統計的予測)がどれだけ当に母集団に対処できるかを良い近似で検証・確認するための手法である。 最初に解析するデータを「訓練事例集合(training set、訓練データ)」などと呼び、他のデータを「テスト事例集合(testing set、テストデータ)」などと呼ぶ。 交差検証はSeymour Geisserが生み出した。特にそれ以上標を集めるのが困難(危険だったり、コストがかかったり)な場合は、データから導いた推定は、交差検証などで慎重に裏付けを確認するべきである。

  • Tips - 統計WEB

    Excelを用いて統計グラフを作成する手順や統計量を計算する手順、ブラウザ上で値を入力して統計量を出力する自動計算フォームを掲載しています。 統計グラフ自動作成Excelシート 箱ひげ図自動作成Excelシート Excelによる統計グラフの作り方 正規分布曲線のグラフの作り方 カイ二乗分布曲線のグラフの作り方 箱ひげ図の作り方(棒グラフ編) ヒストグラムの作り方 人口ピラミッドグラフの作り方 ラベル付き散布図の作り方 縦方向の折れ線グラフの作り方 正規確率プロットの作り方 エラーバー(誤差範囲)付き棒グラフの作り方 エラーバー(高低線)付き折れ線グラフの作り方 Excel関数の使い方 行列の転置・積・逆行列・行列式の計算方法 重複を除いてデータの件数を求める方法 複数の条件を満たすデータの件数を求める方法 必要なサンプルサイズの計算フォーム 母比率の区間推定 母平均の区間推定 Excel

    Tips - 統計WEB
  • 社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

    今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。 あ、これはベタな言い方をすれば「データサイエンティスト(死語)になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

    社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ
  •  「科学と証拠」 - shorebird 進化心理学中心の書評など

    科学と証拠―統計の哲学 入門― 作者: エリオット・ソーバー,松王政浩出版社/メーカー: 名古屋大学出版会発売日: 2012/10/20メディア: 単行購入: 5人 クリック: 105回この商品を含むブログ (20件) を見る 書は,科学哲学者エリオット・ソーバーの手による「Evidence and Evolution」(2008)の全4章のうち「統計の哲学」を扱った第1章のみを訳したものになる.原書は全体として進化生物学の哲学を論じたもの*1なので,その後の議論を理解するために必要な導入部分のみが訳されていることになる.なぜこのような形で翻訳したかについては詳細な訳者解説が付されている.簡単にまとめると以下のような事情になる. 原書第1章は後の3章の生物学哲学議論の準備として統計の哲学が整理されているもので,内容的にはかなり独立したものになっている. 日には格的な統計の哲学に関す

     「科学と証拠」 - shorebird 進化心理学中心の書評など
  • 酒豪型遺伝子出現率に地域差があるようなので、アルコール偏差値を計算してみた

    酒豪型遺伝子出現率に地域差があるらしい。 “酒豪”どこに多い? 「全国酒豪マップ」の謎  日経済新聞 酒に強い人、弱い人がいる割合は地域でかなり差があるとのことだ。アルコールが変化したアセトアルデヒドを分解できる酵素をもっているかどうかが、酒が強いか弱いかの分かれ道で、その酵素をもっているかどうかは、生まれつきの体質によるもの。遺伝子タイプで特定できるらしい。人間は、デフォルトでは酒は飲めるのだが、酒飲めない遺伝子がアジアで突然変異として出現して以来、アジアでは一定数下戸が存在するのだ。 元筑波大学教授の原田勝二氏が全国5,000人を調査し、まとめたのが下記結果。 全国酒豪マップ 都道府県別酒豪型遺伝子出現率 おお! 秋田県トップだ!! 2位の岩手に5ポイント以上の差がある。ダントツじゃね? ・・・やっぱり。 しかし、俺の出身地愛知県は、ワースト2。じいちゃんの出身地の三重県は、ワースト

  • A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT

    記事の編集方針 ※この記事に興味をもたれた方は、 A/Bテスト カテゴリーの記事一覧 - 廿TT も、必要に応じてご覧いただければと思います。 記事はもともとは、「A/Bテストの数理」への批判:「有意」とはなにか の続き的なエントリでした。 しかし、予想外に反響があったため Request for Comments(ご意見求む)の精神で、随時更新している部分もあります。 ただし、ベースとなる主張、Web系施策のA/Bテストに、仮説検定は向かないという部分は変化していません。 もしぼくの考えが変わり、「やっぱ仮説検定、いいかも」となった場合、記事の存在価値はほぼ消滅します。 そのようなことがあれば、ページ最上部に「考えが変わりました」と明記します。 また、他の修正箇所も区別して明記し、差分がわかるようにします。 ただし細かい言い回しや、誤字脱字等はだまって修正します。 目次: そもそも

    A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT
  • 5分でわかるベイズ確率

    11. • 問い1 ゆがみの無いコイン → 表裏の出る確率は 1/2 • 問い2 ある商店街 → 場所によって男女比が違う 男女の通る確率は不確定 ベイズ確率

    5分でわかるベイズ確率