タグ

統計に関するkomlowのブックマーク (21)

  • ベイズ統計 - HELLO CYBERNETICS

    はじめに データとモデル 確率モデル 確率モデルを作る 複雑なモデルを使うことが最善手であるか モデルの具体的な作り方 モデルの仮定 アンサンブルモデル 点推定モデル 最尤推定 制約付き最尤推定※ (最大事後確率推定) ベイズ予測分布と点推定 ベイズ統計学 ベイズ予測分布を得ることの意義 ベイズ統計学の主題 特異モデルと正則モデル ベイズ統計学のまとめ はじめに ベイズだの頻度論だので盛り上がっているので、ぶん殴られる覚悟で書いてみます。 データとモデル 観測値がランダムに見える場合、それを確率変数 $X$ として扱います。 さて、今、$X$ には我々が知ることのできない真の分布 $q(X)$ があるとしましょう。もしも、$X$ を無限回観測し満遍なくデータを集められるとすれば、$q(X)$ の形状を把握することができるかもしれません。 ところが、そんなのは幻想であって実際に無限回の観測を

    ベイズ統計 - HELLO CYBERNETICS
  • 食べログ3.8問題に終止符を打つ

    import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

  •  「統計思考の世界」 - shorebird 進化心理学中心の書評など

    統計思考の世界 ?曼荼羅で読み解くデータ解析の基礎 作者: 三中信宏出版社/メーカー: 技術評論社発売日: 2018/05/18メディア: Kindle版この商品を含むブログ (2件) を見る 書は三中信宏による「思考の体系学」「系統体系学の世界」と併せて単系統群トリロジーを構成する統計思考にかかる一冊.三中は様々な場所でリサーチャー向けに統計学の講義を担当しており,その際にカリキュラムとして話してきた内容が整理されたいわば「講義録」になる. 後の2冊が春秋社,勁草書房といういかにも文系向けの出版社から,「縦書き物理のみ」という数字アルファベット数式混じりの文章を扱う上で全くユーザーフレンドリーでない形式で出版されたのに対して,書は技術評論社から「横書き電子版同時出版」というスマートでユーザーフレンドリーな形式で出版されておりうれしい限りだ. プロローグ 冒頭ではいきなり,昨今では「

     「統計思考の世界」 - shorebird 進化心理学中心の書評など
  • P値を捨てた雑誌で使われている統計量

    ラジラジ言っている北海道の心理学者PsycheRadio氏と話をしていたときに、「心理学で(他の学問でも)統計的検定や推測統計学への批判が高まって以前ほど使われなくなりつつある」と言われたが、違和感がある。少なくとも社会科学分野で使われなくなったとは聞かない。話の流れにあわせて誤魔化されている気がするので確認してみた。 1. 確かに統計的仮説検定は非難されている PsycheRadio氏が全く無根拠な話をしているわけではない。統計的仮説検定によって、胡散臭い統計手法で有意性を捻り出してしまうこと(p-hacking)などが問題になっており、また統計モデルと研究上の仮説の相違を理解しない運用もある。アメリカ統計学会(ASA)が統計的仮説検定に対する注意を喚起する声明を出したぐらいだ。実際に、統計的仮説検定を禁止された雑誌もある。氏が例に挙げたBasic and Applied Social

    P値を捨てた雑誌で使われている統計量
  • [R] 計量経済学と機械学習の違い - ill-identified diary

    ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatenablog.com 概要 機械学習経済学 (計量経済学) そのいずれかに関してある程度の知識がある人間向け もうすでにこのネタでブログその他がいくつも書かれたと思うがさらにダメ押し 実質的には, Mullainathan and Spiess (2017) のレビューと, 多クラス分類を例にしたデモンストレーション. 前半のレビューと後半のデモンストレーションは実はつながりがあまりないので独立して読むこともできる. エビデンスが弱いものの, 多クラス分類を利用する際に注意すべき点が示唆された. 今回も時間がないので若干手抜き気味 vs 計量経済学はモデルの説明を, 機械学習は予測の精度を求めるということは以前,[異種試合] ディープラーニングVSディープパラメー

    [R] 計量経済学と機械学習の違い - ill-identified diary
  • 型安全性と統計計算 | POSTD

    私は大ざっぱに言って、統計学のコミュニティはコンピュータサイエンスの概念にもっと触れた方が恩恵を得られると考えています。その考えを基に、記事では、統計計算システムの振る舞いに関する規範論の展開に 型安全性 の概念を用いる可能性を説明します。また、そのような規範論によって、現行システムの誤用のされ方を明確にできることも論じます。それとともに、統計向けのより型安全な言語を実装しようという現実的提案に立ちはだかる数々の難題についても述べていきます。 コンピュータサイエンスにおける概念としての型安全性 Vijay Saraswat は、型安全な言語を以下のように定義しています。 ある言語内でデータに対して実行できる演算がそのデータの型に許可されたもののみであれば、その言語は型安全である。 個人的にはこの簡潔さは気に入っているのですが、いくつかの例を使って上記の定義を説明すれば多くの読者の皆さんに

    型安全性と統計計算 | POSTD
  • 【翻訳】整然データ|Colorless Green Ideas

    効果的なデータ分析に関して、「整然データ」という概念を提唱した論文 “Tidy Data” の全訳。整然データは、Rなどでデータ分析を容易にする有用な概念である。 ここに公開するのは、以下の論文の全訳である。 Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59 (10). doi:10.18637/jss.v059.i10 この論文は、「整然データ」(tidy data) という概念を提唱したものである。これは、Rなどでデータ分析を容易にする有用な概念になっている。 なお、この概念についての簡単な解説として、「整然データとは何か」という文章を用意したので、先をそちらを読んでもよいだろう。また、“tidy” という英語をなぜ「整然」という日語に訳したかについては「なぜ“tidy data”を「整然データ」と訳

    【翻訳】整然データ|Colorless Green Ideas
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
  • 競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ

    記事のタイトル通り、競馬で回収率100%を超える方法を見つけたので、その報告をする。 ちなみに、この記事では核心部分はぼかして書いてあるため、読み進めたとしても「競馬で回収率100%を超える方法」が具体的に何なのかを知ることはできない。(私は当に有効な手法を何もメリットが無いのに公開するほどお人好しではないので) 当に有効な手法を見つけたいのであれば、あなた自身がデータと向き合う以外の道は無い。 ただし、大まかな仕組み(あと多少のヒントも)だけは書いておくので、もしあなたが独力でデータ解析を行おうという気概のある人物なのであれば、この記事はあなたの助けとなるだろう。 ちなみに、これは前回の記事の続きなので、読んでない方はこちらからどうぞ。 stockedge.hatenablog.com オッズの歪みを探す さて、前回からの続きである。 前回の記事のブコメで「回収率を上げたいならオッズ

    競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ
  • ベイズ推定の概要 超入門

    自殺の時空間疫学 http://ikiru.ncnp.go.jp/ikiru-hp/genjo/toukei/index.html 少研究数のメタ分析 Noma, H. Statist. Med. 2011, 30 3304–3312 K=10以下での信頼区間を向上させる Topics はじめに 推測統計の基 最尤推定とベイズ推定 MCMCによるベイズ推定

    ベイズ推定の概要 超入門
  • 実証分析入門|日本評論社

    第1章  実証分析における心構え: これからの「実証」の話をしよう 第2章  実証分析の落とし穴: こんなの絶対おかしいよ 第3章  確率統計の基礎: 高校時代に逢った、ような…… 第4章  OLS: わたしの、最高の友達 第5章  重回帰分析: 魔女の作り方 第6章  決定係数R2: ☆もりはつ☆の59%は勢いで出来ています 第7章  仮説検定(1): お前はもう死んでいる 第8章  仮説検定(2): 私が死んでも代わりはいるもの 第9章  さまざまなモデル: ダミーも、交差も、あるんだよ 第10章  バイアス: いや、そのりくつはおかしい 第11章  不均一分散への対処: こんなこともあろうかと 第12章  目的変数が質的変数の場合の分析手法: 飛ばねぇ豚はただの豚だ 第13章  最尤法(MLE): OLSとは違うのだよ、OLSとは! 第14章  目的変数が三択以上の場合の場合の分析手

    実証分析入門|日本評論社
  • Pythonで一般化線形モデル - old school magic

    概要 統計の勉強の一環で、最近はこのを読んでます。かなり分かりやすいです。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行購入: 16人 クリック: 163回この商品を含むブログ (19件) を見る統計モデリングに関するです。一般化線形モデルを中心に話が進んでいきます。 このはRを中心に話が進んでいきますが、せっかくなのでPythonで一般化線形モデルを試してみようと思います。 Pythonの統計ライブラリ 一般化線形モデルとは、線形回帰を(正規分布以外でも使えるように)拡張した統計モデルです。 詳しい説明は教科書に譲るとして、Pythonでのライブラリについてお話します。 Pythonで一般化線形モデル、というか統計全般のライブラ

    Pythonで一般化線形モデル - old school magic
  • 伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei

    「図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術」というを読んだ。 社会人のアヤとケンが社内研修で伝説のベイジアン先生からベイズの基礎を教わる、という設定の会話形式でベイズについて書かれた入門書。社内研修でベイズのプロから指導を受けるとかどんだけ恵まれてるんだ。 アヤさんは大学で統計をやったが数学は詳しくないという設定。ただ時々鋭い質問をする。また統計に詳しいイケメン兄がいる。 ケンくんは知識は全くなく最後まで「わかりません」を連発する。彼女持ちのリア充。 伝説のベイジアン先生は社内研修の講師。ベイズの基礎を豊富な具体例で教えてくれるまじぱない先生。あまりにもいけてるので数カ月後に転職しそうな感じ。 内容は1章が導入、2章が同時確率・条件付き確率、3章がベイズの定理、4章がベイズの定理を用いた事後確率計算の具体例、5章が事例の追加による事前確率の更新(具体例としてナイ

    伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei
  • データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

    統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。 疑うべき順番は モデル → 推定法 データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。 ひとつの事例 とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で

    データサイエンティストではない人に知っておいて欲しい事 - hotokuとは
  • ソーシャルゲームにレコメンドエンジンを導入した話

    心理的安全性と、Veinの紹介 Psychological safety and introduction of VeinTokoroten Nakayama

    ソーシャルゲームにレコメンドエンジンを導入した話
  • ドメインパーキング

    bizcompass.jp

    ドメインパーキング
  • アンサンブル学習

    Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-men

    アンサンブル学習
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • はてなブログ | 無料ブログを作成しよう

    来年も作りたい!ふきのとう料理を満喫した 2024年春の記録 春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。 中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

    はてなブログ | 無料ブログを作成しよう
    komlow
    komlow 2012/01/30
    ブクマした人の何人が実際に観るんでしょうかね
  • はてなブログ | 無料ブログを作成しよう

    思いは言葉に。 はてなブログは、あなたの思いや考えを残したり、 さまざまな人が綴った多様な価値観に触れたりできる場所です。

    はてなブログ | 無料ブログを作成しよう