[B! 統計] komlowのブックマーク

ベイズ統計 - HELLO CYBERNETICS

はじめにデータとモデル確率モデル確率モデルを作る複雑なモデルを使うことが最善手であるかモデルの具体的な作り方モデルの仮定アンサンブルモデル点推定モデル最尤推定制約付き最尤推定※ （最大事後確率推定）ベイズ予測分布と点推定ベイズ統計学ベイズ予測分布を得ることの意義ベイズ統計学の主題特異モデルと正則モデルベイズ統計学のまとめはじめにベイズだの頻度論だので盛り上がっているので、ぶん殴られる覚悟で書いてみます。データとモデル観測値がランダムに見える場合、それを確率変数 $X$ として扱います。さて、今、$X$ には我々が知ることのできない真の分布 $q(X)$ があるとしましょう。もしも、$X$ を無限回観測し満遍なくデータを集められるとすれば、$q(X)$ の形状を把握することができるかもしれません。ところが、そんなのは幻想であって実際に無限回の観測を

komlow 2020/02/12

統計

リンク

食べログ3.8問題に終止符を打つ

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

komlow 2019/10/16

統計

リンク

　「統計思考の世界」 - shorebird　進化心理学中心の書評など

統計思考の世界 ?曼荼羅で読み解くデータ解析の基礎作者: 三中信宏出版社/メーカー: 技術評論社発売日: 2018/05/18メディア: Kindle版この商品を含むブログ (2件) を見る本書は三中信宏による「思考の体系学」「系統体系学の世界」と併せて単系統群トリロジーを構成する統計思考にかかる一冊．三中は様々な場所でリサーチャー向けに統計学の講義を担当しており，その際にカリキュラムとして話してきた内容が整理されたいわば「講義録」になる．後の2冊が春秋社，勁草書房といういかにも文系向けの出版社から，「縦書き物理本のみ」という数字アルファベット数式混じりの文章を扱う上で全くユーザーフレンドリーでない形式で出版されたのに対して，本書は技術評論社から「横書き電子版同時出版」というスマートでユーザーフレンドリーな形式で出版されておりうれしい限りだ．プロローグ冒頭ではいきなり，昨今では「

komlow 2018/06/10

統計

リンク

P値を捨てた雑誌で使われている統計量

ラジラジ言っている北海道の心理学者PsycheRadio氏と話をしていたときに、「心理学で（他の学問でも）統計的検定や推測統計学への批判が高まって以前ほど使われなくなりつつある」と言われたが、違和感がある。少なくとも社会科学分野で使われなくなったとは聞かない。話の流れにあわせて誤魔化されている気がするので確認してみた。 1. 確かに統計的仮説検定は非難されている PsycheRadio氏が全く無根拠な話をしているわけではない。統計的仮説検定によって、胡散臭い統計手法で有意性を捻り出してしまうこと（p-hacking）などが問題になっており、また統計モデルと研究上の仮説の相違を理解しない運用もある。アメリカ統計学会（ASA）が統計的仮説検定に対する注意を喚起する声明を出したぐらいだ。実際に、統計的仮説検定を禁止された雑誌もある。氏が例に挙げたBasic and Applied Social

komlow 2018/05/09

統計

リンク

[R] 計量経済学と機械学習の違い - ill-identified diary

ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatena blog.com 概要機械学習か経済学 (計量経済学) そのいずれかに関してある程度の知識がある人間向けもうすでにこのネタでブログその他がいくつも書かれたと思うがさらにダメ押し実質的には, Mullainathan and Spiess (2017) のレビューと, 多クラス分類を例にしたデモンストレーション. 前半のレビューと後半のデモンストレーションは実はつながりがあまりないので独立して読むこともできる. エビデンスが弱いものの, 多クラス分類を利用する際に注意すべき点が示唆された. 今回も時間がないので若干手抜き気味 vs 計量経済学はモデルの説明を, 機械学習は予測の精度を求めるということは以前,[異種試合] ディープラーニングVSディープパラメー

komlow 2017/08/02

リンク

型安全性と統計計算 | POSTD

私は大ざっぱに言って、統計学のコミュニティはコンピュータサイエンスの概念にもっと触れた方が恩恵を得られると考えています。その考えを基に、本記事では、統計計算システムの振る舞いに関する規範論の展開に型安全性の概念を用いる可能性を説明します。また、そのような規範論によって、現行システムの誤用のされ方を明確にできることも論じます。それとともに、統計向けのより型安全な言語を実装しようという現実的提案に立ちはだかる数々の難題についても述べていきます。コンピュータサイエンスにおける概念としての型安全性 Vijay Saraswat は、型安全な言語を以下のように定義しています。ある言語内でデータに対して実行できる演算がそのデータの型に許可されたもののみであれば、その言語は型安全である。個人的にはこの簡潔さは気に入っているのですが、いくつかの例を使って上記の定義を説明すれば多くの読者の皆さんに

komlow 2017/03/29

リンク

【翻訳】整然データ｜Colorless Green Ideas

効果的なデータ分析に関して、「整然データ」という概念を提唱した論文 “Tidy Data” の全訳。整然データは、Rなどでデータ分析を容易にする有用な概念である。ここに公開するのは、以下の論文の全訳である。 Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59 (10). doi:10.18637/jss.v059.i10 この論文は、「整然データ」(tidy data) という概念を提唱したものである。これは、Rなどでデータ分析を容易にする有用な概念になっている。なお、この概念についての簡単な解説として、「整然データとは何か」という文章を用意したので、先をそちらを読んでもよいだろう。また、“tidy” という英語をなぜ「整然」という日本語に訳したかについては「なぜ“tidy data”を「整然データ」と訳

komlow 2017/01/10

data
統計

リンク

「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日（現地時間）に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

komlow 2016/03/08

統計

リンク

競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ

記事のタイトル通り、競馬で回収率100%を超える方法を見つけたので、その報告をする。ちなみに、この記事では核心部分はぼかして書いてあるため、読み進めたとしても「競馬で回収率100%を超える方法」が具体的に何なのかを知ることはできない。（私は本当に有効な手法を何もメリットが無いのに公開するほどお人好しではないので）本当に有効な手法を見つけたいのであれば、あなた自身がデータと向き合う以外の道は無い。ただし、大まかな仕組み（あと多少のヒントも）だけは書いておくので、もしあなたが独力でデータ解析を行おうという気概のある人物なのであれば、この記事はあなたの助けとなるだろう。ちなみに、これは前回の記事の続きなので、読んでない方はこちらからどうぞ。 stockedge.hatena blog.com オッズの歪みを探すさて、前回からの続きである。前回の記事のブコメで「回収率を上げたいならオッズ

komlow 2016/01/17

統計

リンク

ベイズ推定の概要超入門

自殺の時空間疫学 http://ikiru.ncnp.go.jp/ikiru-hp/genjo/toukei/index.html 少研究数のメタ分析 Noma, H. Statist. Med. 2011, 30 3304–3312 K=10以下での信頼区間を向上させる Topics はじめに推測統計の基本最尤推定とベイズ推定 MCMCによるベイズ推定

komlow 2015/03/04

統計

リンク

実証分析入門｜日本評論社

第1章　実証分析における心構え：　これからの「実証」の話をしよう第2章　実証分析の落とし穴：　こんなの絶対おかしいよ第3章　確率統計の基礎：　高校時代に逢った、ような…… 第4章　OLS：　わたしの、最高の友達第5章　重回帰分析：　魔女の作り方第6章　決定係数R2：　☆もりはつ☆の59％は勢いで出来ています第7章　仮説検定(1)：　お前はもう死んでいる第8章　仮説検定(2)：　私が死んでも代わりはいるもの第9章　さまざまなモデル：　ダミーも、交差も、あるんだよ第10章　バイアス：　いや、そのりくつはおかしい第11章　不均一分散への対処：　こんなこともあろうかと第12章　目的変数が質的変数の場合の分析手法：　飛ばねぇ豚はただの豚だ第13章　最尤法（MLE）：　OLSとは違うのだよ、OLSとは！第14章　目的変数が三択以上の場合の場合の分析手

komlow 2014/06/01

本
統計

リンク

Pythonで一般化線形モデル - old school magic

概要統計の勉強の一環で、最近はこの本を読んでます。かなり分かりやすいです。データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行本購入: 16人クリック: 163回この商品を含むブログ (19件) を見る統計モデリングに関する本です。一般化線形モデルを中心に話が進んでいきます。この本はRを中心に話が進んでいきますが、せっかくなのでPythonで一般化線形モデルを試してみようと思います。 Pythonの統計ライブラリ一般化線形モデルとは、線形回帰を(正規分布以外でも使えるように)拡張した統計モデルです。詳しい説明は教科書に譲るとして、Pythonでのライブラリについてお話します。 Pythonで一般化線形モデル、というか統計全般のライブラ

komlow 2014/05/18

リンク

伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei

「図解・ベイズ統計「超」入門あいまいなデータから未来を予測する技術」という本を読んだ。社会人のアヤとケンが社内研修で伝説のベイジアン先生からベイズの基礎を教わる、という設定の会話形式でベイズについて書かれた入門書。社内研修でベイズのプロから指導を受けるとかどんだけ恵まれてるんだ。アヤさんは大学で統計をやったが数学は詳しくないという設定。ただ時々鋭い質問をする。また統計に詳しいイケメン兄がいる。ケンくんは知識は全くなく最後まで「わかりません」を連発する。彼女持ちのリア充。伝説のベイジアン先生は社内研修の講師。ベイズの基礎を豊富な具体例で教えてくれるまじぱない先生。あまりにもいけてるので数カ月後に転職しそうな感じ。内容は1章が導入、2章が同時確率・条件付き確率、3章がベイズの定理、4章がベイズの定理を用いた事後確率計算の具体例、5章が事例の追加による事前確率の更新(具体例としてナイ

komlow 2013/12/27

統計

リンク

データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。疑うべき順番はモデル → 推定法データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。ひとつの事例とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で

komlow 2012/12/21

リンク

ソーシャルゲームにレコメンドエンジンを導入した話

スマホマーケットの概要と、�マーケティングの失敗例と改善　（アナリティクスアソシエーション特別セミナー）

komlow 2012/11/10

統計

リンク

ドメインパーキング

bizcompass.jp

komlow 2012/06/13

統計

リンク

アンサンブル学習

Recent Advances on Transfer Learning and Related Topics Ver.2

komlow 2012/03/11

R
統計

リンク

統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

はじめに統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。それでは実際のデータをどうやって手に入れましょうか？実験や調査をして実際のデータを得るのは大変でお金もかかります。幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。というわけで、今日は、

komlow 2012/02/14

統計
R

リンク

はてなブログ | 無料ブログを作成しよう

庭から採ってつくる、セリ嫌いを殺すセリもつ鍋こんにちは、音音です。さて、我が家では2年ほど前から、春の七草を自前で育てて七草粥を作るプロジェクトに取り組んできたわけですが↓ togimarufriends.hatena blog.com 今年初め、ついに五草粥までは実現することができました。収穫できた五草は、ゴギョウ、ナズナ、…

komlow 2012/01/30

ブクマした人の何人が実際に観るんでしょうかね

統計

リンク

はてなブログ | 無料ブログを作成しよう

庭から採ってつくる、セリ嫌いを殺すセリもつ鍋こんにちは、音音です。さて、我が家では2年ほど前から、春の七草を自前で育てて七草粥を作るプロジェクトに取り組んできたわけですが↓ togimarufriends.hatena blog.com 今年初め、ついに五草粥までは実現することができました。収穫できた五草は、ゴギョウ、ナズナ、…

komlow 2012/01/28

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

統計に関するkomlowのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス