タグ

Statisticsに関するagwのブックマーク (416)

  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。

  • 「身につくベイズ統計学 」は良書だった - どらちゃんのポッケ

    今度、豊田先生のはじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―のもでるし、理解しているようで、理解できていないベイズ統計をもう一度勉強しようと思って、このを読んでみた。とてもいいだった。 ベイズ統計ののリリースラッシュの中、このは基礎固めに最適だと思った。その読書メモ。 簡単な例題がおおい こういう風にベイズ統計を使えばいいのか、メリットがあるのかということがよく分かるような簡単な例題がたくさんよういされているので、ベイズ統計の威力を実感できる作りになっていると思う。 頻度論とベイズを対比させて書いている 頻度論での分析の流れと対比させて、ベイズ論の分析を説明しているので、「考え方」「使い方」の違いがよくわかりやすい。頻度論とベイズ論で同じ分析結果になるとしても、考え方の着想・プロセスの違いがわかるので、頻度論になれてしまっている人にとっては、とてもいいと思う

  • ニコニコチャンネル

    ユーザーブロマガのサービスは終了いたしました ユーザーブロマガサービスは2021年10月7日をもちまして終了いたしました。 長らくのご愛顧ありがとうございました。 ニコニコチャンネルトップへ

    ニコニコチャンネル
  • JMPの概要

    可視化がより深いデータの探索を実現。 強力な分析機能を必要とする科学者やエンジニアが選ぶデータ分析ソフトウェア。JMPは、インタラクティブで、視覚的な統計分析ソフトウェアです。コーディングは不要で、オールインワンでシームレスなエンドツーエンドの分析プラットフォームです。 詳細はこちら JMP Pro より高度な解析を、簡単に。 予測モデリングや機械学習などの最新のデータサイエンス技術を使用して、より大規模で難易度の高い課題を解決しましょう。デスクトップソフトウェアならではの柔軟性を維持しながら、トップクラスの分析パフォーマンスを実現します。 詳細はこちら

    JMPの概要
  • Rで楽しむ統計 - 共立出版

    Chapter 1 Rで遊ぶ 1.1 Rとは 1.2 簡単な計算 1.3 ヘルプと終了 1.4 データの入力 1.5 データフレーム 1.6 ファイルの読み書きと文字コード 1.7 図の描き方 1.8 パッケージの例:Excelファイルを読む Chapter 2 統計の基礎 2.1 尺度水準 2.2 代表値 2.3 確率変数,乱数,母集団,標 2.4 分散と標準偏差 2.5 中心極限定理と正規分布 2.6 コーシー分布 2.7 正規分布から導かれる分布 Chapter 3 2項分布,検定,信頼区間 3.1 2項分布 3.2 統計的仮説検定の考え方 3.3 統計的仮説検定に関する議論 3.4 多重検定 3.5 信頼区間 3.6 2項分布から正規分布へ 3.7 検定の例:PISAの「盗難事件」問題 3.8 信頼区間の例 3.9 尤度と最尤法 3.10 止め方で結果が変わる? Chapter

    Rで楽しむ統計 - 共立出版
  • Understanding Bias: A Pre-requisite For Trustworthy Results

  • 蟻本シリーズ 2 ランダムウォーク - StatModeling Memorandum

    今回は以下のランダムウォークの問題を考えます。 I×Jの大きさのグリッドがあります。(1,1)からスタートして、1ターンに上下左右4マスのうち移動できる方向にそれぞれ確率p1,p2,p3,p4で移動します。いくつかのマスには石が置いてあり、通行不可能になっています。(I,J)にはじめて辿り着くまでにかかるターン数の期待値を求めなさい。ただし、(1,1)から(I,J)に移動するパスが少なくとも1つは存在すると仮定します。 例:I = 3, J = 10 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1 0 1 1 1 0 1 1 1 0 [2,] 1 0 1 0 1 0 1 0 1 0 [3,] 1 1 1 0 1 1 1 0 1 1 0が石があるマスで、1が移動できるマスです。以降ではこのグリッドを「グリッドA」と呼びます。

    蟻本シリーズ 2 ランダムウォーク - StatModeling Memorandum
  • 読書記録『勝てる野球の統計学――セイバーメトリクス』☆☆☆ - 唯物是真 @Scaled_Wurm

    野球のデータを統計的に見ていくセイバーメトリクスの入門書 セイバーメトリクス - Wikipedia アウトカウントと走者の状況別のその後の得点期待値を見ると、得点期待値は送りバントをすると下がってしまうが、得点確率を見ると状況によっては上がるらしい、などという感じに野球を統計データを使って見ていく為ののプロ野球のデータを使っているところがよい 入門書だからか天下り式に数式が突然出てきて説明があまりないものが多いのは難点 たとえば以下のピタゴリアン期待値は勝率と強い相関があるらしいけど、どこからこの式が湧いてきたんだろうという感じにもなる(必ずしも2乗でなくてデータから何乗にするのがよいか決めるらしい) $$ピタゴリアン期待値 = \frac{得点^2}{得点^2 + 失点^2}$$ その他にも打者や投手、守備の指標などいろいろと出てくる 見てみたらわりとWikipediaにもいろ

    読書記録『勝てる野球の統計学――セイバーメトリクス』☆☆☆ - 唯物是真 @Scaled_Wurm
  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
  • 5分でわからない統計的検定 - 唯物是真 @Scaled_Wurm

    社内でABテストとか統計的仮説検定の話題が出ていたので、統計的検定を知らない人向けに「5分でわかる統計的検定」というLTをしようかと思ったけど、まったく5分で終わる気がしなかったのでとりあえずブログにまとめてみる ちなみに社内では統計的検定は数名の人が個人的に趣味で使っている程度 個人的には統計的検定をやることをそんな重要視してないけど(PVとかユーザー数多ければだいたい有意差出るし、数値を見て明らかに差があるような変更でないとあまり意味がないような気がする) 自分は統計やABテストなどにあまり詳しいわけではないので注意 間違いはコメントやTwitterなどで教えていただけると嬉しいです 統計的検定とは 雑にいうと、得られた結果が偶然得られたものどうかを確かめる方法(特定の仮定のもとで) ABテストでは別々のものをユーザーに見せた結果が偶然の差ではなく統計的に意味のある差(有意差)が得られ

    5分でわからない統計的検定 - 唯物是真 @Scaled_Wurm
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
  • 外れ値 - Wikipedia

    外れ値(中央の赤い点) 外れ値(はずれち、英: outlier)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。 英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある[1][2]。 外れ値かどうか検定したい標について、偏差を不偏標準偏差で割った検定統計量 を求め(x1 は標値、μ は平均、σ は標準偏差)、この値(両側検定をする場合はこの絶対値)が有意点より大きいかどうかで検定する。 簡単な方法では、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。 より精密には、正規分布を仮定して、スミルノフ・グラブス (Smirnov‐Grubbs) 検定を使う。サンプルサイズ

    外れ値 - Wikipedia
  • データ可視化チートシート - Qiita

    はじめに データ可視化では、データの性質によって概ねどのような可視化ができるのか決まる場合があります。データ可視化は探索的なデータ分析をする場合や、データ分析した結果を誰かに伝えるために重要であり、その時々の目的に合わせた可視化を選択するべきですが、そもそも可視化手法の特性とデータの性質があっていないとあまり効果がない場合があります。筆者が業務においてデータ可視化する際にデータの性質から可視化手法を導く場合の道のりを整理し、チートシートとしてまとめてみました。 もちろん、調べたい・表現したい内容によって自分で自由に選んでもまったく問題無いですが、データを前にして「どうやって可視化しよう?」と悩んでいる方の一助になれば幸いです。 また、この記事では主に一般的な可視化(グラフ)手法にフォーカスしており、イラスト的な要素を含むインフォグラフィックなどについては触れていません。(が、だいたいのデー

    データ可視化チートシート - Qiita
  • ゼロ平均正規化相互相関 - PukiWiki

  • 基本的なテンプレートマッチング

    概要 テンプレートマッチングはテンプレート画像を入力画像で走査させ,入力画像上の各位置における類似度を算出し, 最大(もしくは,しきい値以上)の類似度をとる位置を検出する手法です. ページではテンプレートマッチングの基的な類似度指標である,Sum of Abusolute Difference(SAD), Sum of Squared Difference(SSD),Normalized Cross-Correlation(NCC), Zero-means Normalized Cross-Correlation(ZNCC)について解説します. Sum of Abusolute Difference(SAD),Sum of Squared Difference(SSD) SADはテンプレートfと入力画像gの濃度値の差の絶対値和,SSDは差の2乗和です. 「各画素値の違いの量」の累積値な

    基本的なテンプレートマッチング
  • アニメでわかるベイズ推論によるパラメータ学習 - 作って遊ぶ機械学習。

    さて、今日はガウス分布を使った簡単な実験を行って、ベイズ推論における機械学習質の一端を説明したいと思います。せっかくなので前回取り扱った多峰性事前分布も実験に取り入れてみたいと思います。 改めてベイズ学習を数式で書くと次のようになります。 パラメータに関する事前の知識が、尤度関数を通して、事後の知識に変換されるんでしたね。今回はこのプロセスをアニメーションを見ながら確認してみようというお話です。 で、今回は次のような平均値パラメータを持った真のガウス分布のパラメータを推論する問題を考えてみたいと思います。 分散は簡単化のため、既知で固定ということにしておきます。先ほどのベイズ学習の表記を使うとということになりますね。 さて、データに対する観測モデルはガウス分布を使うとして、事前分布は違ったものを3種類用意してみたいと思います。そして実際に真のガウス分布からサンプルされたデータを与えてあ

    アニメでわかるベイズ推論によるパラメータ学習 - 作って遊ぶ機械学習。
    agw
    agw 2016/03/02
    とても分かりやすい。
  • 統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita

    はじめに 統計、機械学習が流行しているので、勉強したいと考えている人が多いと思います。 が、しかし、実際に手を動かすためには、データがないと難しく勉強は困難です。 PRMLとか読んでも、実務で使えそうなイメージは湧きません。 そこで、生データをダウンロードできるリンク集を作ってみました。 見つけ次第増やしていきます。 過去の気象データ検索 by 気象庁 http://www.data.jma.go.jp/obd/stats/etrn/index.php 気象に関する情報のデータベースです。 条件を色々入れると、CSVを生成してくれます。 データ容量制限がありますが、いろいろ使えそうです。 人体寸法データベース by 産総研 https://www.dh.aist.go.jp/database/91-92/ 身体のいろんな場所の寸法に関するデータベースです。 足のサイズとか、顔の大きさとかの

    統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita
  • JavaScriptで爆速グラフ・チャートが作成できる「CanvasJS」を使ってみた! : うえぶはっく

    ちょっとしたデータをサクッと「グラフ」や「チャート」にして、Webページに素早く公開したい人に最適なJavaScriptライブラリ「CanvasJS」のご紹介です! 類似のライブラリはいくつかありますが、「CanvasJS」はわずか数行のコードですぐにグラフが作成でき、なおかつ豊富なパラメータをいじることで驚くほど細かいカスタマイズも実現できるのが特徴的です。 今回は、基的な使い方を中心にご紹介しようと思います! 必要なファイルを準備しよう! 「CanvasJS」の体ファイルは、サイトのトップページからダウンロードできますが、CDN経由からも利用できるようになっています。 https://cdnjs.cloudflare.com/ajax/libs/canvasjs/1.7.0/canvasjs.min.js これを、HTMLファイルに読み込みます! // index.html <!d

    JavaScriptで爆速グラフ・チャートが作成できる「CanvasJS」を使ってみた! : うえぶはっく
  • 驚愕!東京23区内にスタバがない区が存在した! | ZUNNY インフォグラフィック・ニュース

    今年5月23日、スターバックスが、47都道府県で唯一出店していなかった鳥取県にはじめて店舗を構えたことが話題になった。都内では比較的身近な存在であるため、「今さらスタバ?」と思った人も少なくないだろう。では、東京23区ではどうなのだろうか? 大手カフェチェーン店が、23区内にどれだけ出店しているのか調査した。 スタバ店舗数1位は港区! オフィスや複合施設が密集するエリアだけにスタバの出店数が多いのだろう。一方で荒川区と江戸川区はゼロ…。荒川区は昼間の就業者人口が23区中もっとも少ないことが、スタバが出店しない要因になっている? 江戸川区は、べログで「江戸川区 喫茶店」と検索すると108件で、同様の検索を行った場合の23区で下から3番目(12月16日時点)。もともと喫茶店ニーズが少ないのかも。ちなみに両区にスタバはないが珈琲館は数多く存在する。 (文=奈古善晴/考務店 デザイン=ZUNNY

    驚愕!東京23区内にスタバがない区が存在した! | ZUNNY インフォグラフィック・ニュース
  • 【R】ふつうのスクリプト言語プログラマーのためのR言語入門 - 歩いたら休め

    「他のスクリプト言語ならそれなりに触れるけど、Rって変な機能が多いから難しい」と感じている人のために、Rの独特な点、ハマりどころ、そして特にデータの集計での強力な機能やパッケージをまとめてみました。 社内のデータリソース移行の作業の中で、前任者が(良い意味でも悪い意味でも)すごいRプログラマーだったのと、DBからのデータの取得からデータの整形・確認が一気に行えるという理由で久しぶりにRを触りました。 (先輩!僕が「%>%ってなんですか?」みたいな質問すると、チャットでgithubのリンクを貼られたり、AdvancedRを薦められたりするの、めっちゃ困りました!) 数年前Rを使っていたときは、 Rのプログラムってよくわからないなあ…、後から自分のコード見ても意味が読み取れないよ… Pythonでpandasとかmatplotlibってパッケージを使えばRっぽいことができるの?じゃあそっち使お

    【R】ふつうのスクリプト言語プログラマーのためのR言語入門 - 歩いたら休め