[B! 統計] biochem_fanのブックマーク

統計的学習理論（１）：フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記（ミラー版）

勉強したことメモ。数式を使わずに書く。また、行間をスキップせずに、多少くどいかもしれないくらいにきっちり順を追って説明を書いたので長いけどわかりやすくなっているはず。第一回はベイズの手前まで、最尤法のあたりまでの話をする。推定量データを表す確率変数があってその密度関数は何らかのパラメータであらわされているとする。観測したデータから合理的にパラメータを決定するタスクのことを推定という。推定を世界で最初にガッチリ研究したのはフィッシャーという人で、彼は推定方法の良しあしを判断する基準として、（A）不偏性、（B）有効性、（C）一致性、（D）漸近正規性、（E）十分性、などを考えた。データからパラメータを推定する手続きは、データの関数として表せる。そういう関数を推定関数、そうやって計算した値を推定量と呼ぶ。観測されうるデータは確率変数なので、推定量も確率変数となる。推定量が確率変数だ

biochem_fan 2014/08/30

どれが何の関数か考えることが大事

統計

リンク

スパイク統計モデル入門

biochem_fan 2014/08/30

統計

リンク

草薙メソ2014 2 ブートストラップ

biochem_fan 2014/07/12

統計

リンク

TrueSkillモデルの紹介

TrueSkillモデルの紹介 Presentation Transcript TrueSkillモデルの紹介 2013.9.29 @berobero11 BUGS/Stan勉強会 #1 於ドリコム • 導入 • 戦闘力を推定してみよう • プロ棋士の強さを推定してみよう 1 2 3 • 導入 • 戦闘力を推定してみよう • プロ棋士の強さを推定してみよう 1 2 3 平野早矢香と福原愛 Photo 世界ランク 15位レーティングポイント 2627 格上にもよく勝つ格下にもよく負ける Photo 世界ランク 28位レーティングポイント 2475 格上にはなかなか勝てない格下にはほとんど負けないレーティングポイント ☺ 計算が簡単 ☹ 落ち着くまでは初期レートに強く依存 ☹ 勝負ムラは考慮してない ☹ 強い or 弱い人のレートの動きがヤヴァイ http://ja.wikip

biochem_fan 2014/04/28

統計

リンク

階層ベイズモデルで勝敗データからプロ棋士の強さを推定してみました

タイミングの悪さに定評があるberoberoです。以前の記事のTrue Skillモデルを若干拡張して、勝敗データから将棋のプロ棋士の強さ（skill）を推定しました。まず勝敗データとレーティングの値ですが、こちらのサイトを参考にさせていただきました。このようなデータを日々更新していくのには多大な努力と忍耐がないとできません。素晴らしいサイトです。モデルのBUGSコードは以下のようになりました。今回は以前よりはデータが豊富にあるため、skillをこの10年の時系列に沿ったARモデルにしています。1年ごとに対局データを分けて、1年ごとにskillを推定しています。また個人ごとの勝負におけるムラも推定しています。こちらはARモデルにすると収束が著しく悪くなったため、時刻で不変としました。ほんとは禁酒しただとか彼女と別れただとかで勝負ムラも変わってくると思うんですけどデータ不足で推定は厳し

biochem_fan 2014/04/28

リンク

十分統計量 (Sufficient Statistics) って何なのさ？ - あらびき日記

この記事は abicky.net の十分統計量 (Sufficient Statistics) って何なのさ？に移行しました

biochem_fan 2014/04/22

統計

リンク

「偏差値の低そうな学校名」に関する考察 - MEMORANDUM

2013-12-21 「偏差値の低そうな学校名」に関する考察 R Mathematics 非常にアレな言い方ではあるが，世の中には「偏差値の低そうな学校名」や「偏差値の高そうな学校名」があると思う．そこで「偏差値の低そうな学校名」というものは存在しないのか，あるいは字面からある程度偏差値を予測することは可能なのか，という疑問に対する1つの答えを出したい．今回は，各高校名を構成する文字から，重回帰分析で偏差値を予測することで，これを確かめる．始めにこの記事は，自分で取得した偏差値データをムリヤリ重回帰分析の手法にねじ込んで遊んでいるだけの記事なので，絶対に真に受けてはいけない．調査について調査対象今回は，高校について調査を行う．偏差値データはH25の予測偏差値を用いる．各学校の偏差値データの取得例によって全国高校受験ナビから取得する．詳細な取得方法については各高校の偏差値の

biochem_fan 2014/04/19

リンク

Rで可視化。Pixivタグ検索結果からデンドログラムを出力 - Qiita

出力イメージ概要 Pixivタグ間の関係を調べる為にクラスター分析を行い、その結果をデンドログラムで可視化する。処理 01.Pixivタグ検索結果からタグ間のクロス集計データを作る。（Ruby） -> Rubyで前処理。Pixivのタグ検索結果からクロス集計データを作る艦隊これくしょん,百合,艦これ,加賀,赤城,赤賀,大北,天龍,大井,鈴熊,北上,龍田,天龍田,女性提督艦隊これくしょん,294,283,227,70,61,52,24,21,20,19,19,18,15,15 百合,283,288,223,69,60,52,24,20,20,19,19,17,14,15 艦これ,227,223,233,57,49,42,16,21,13,17,13,18,15,12 加賀,70,69,57,70,58,39,0,1,0,2,0,1,1,1 赤城,61,60,49,58,61,39,0

biochem_fan 2014/03/30

統計

リンク

文系のための「擬逆行列」（２）

とりあえず、小麦粉の総量例を考えてみると、ホットケーキの小麦粉、ドーナツの小麦粉、カステラの小麦粉のそれぞれの分量と作りたい個数を掛けて足せば良いのだから、この場合は、小麦粉の総分量= (50.0 ✕ 2)＋(7.0 ✕ 10) ＋(75 ✕ 1) となる。これは行列の掛け算で簡単に計算することができる。行列の掛け算のルールは、「横✕縦」が原則であった。つまり、以下のような式を考えれば良いことになる。となるはず。Rで実際に計算して確かめてみる。たしか、行列の「掛け算」のときには「%*%」を使うのだった。 # 作りたい個数を変数にセットする。 pieces <- c(2, 10, 1) # 次に、行列の掛け算を実行 A %*% pieces 以下がこの行列の計算結果。 > # 次に、行列の掛け算を実行 > A %*% pieces [,1] flour 245 egg

biochem_fan 2014/03/23

分かりやすい例とRコード

リンク

面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ！

転職して丁度2年がたちました。現在はWebベンチャーで統計屋しています。大変楽しい毎日です。なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。あと現職の解決しがたい不満についても書いています。糞長くなってしまったので要約すると「今糞面白いけど超えられない壁あるので誰か助けて」です。現職面白い理由5個。 1．データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした行動経済学やテキストマイニングをやっていました。そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。ですが今はSNSやソーシャルゲームや広告の

biochem_fan 2013/12/17

MMO って経済学の研究対象として面白いという話を聞いたことがあるが、行動とか発話の研究素材としても面白いんだな。

リンク

Stein's example - Wikipedia

In decision theory and estimation theory, Stein's example (also known as Stein's phenomenon or Stein's paradox) is the observation that when three or more parameters are estimated simultaneously, there exist combined estimators more accurate on average (that is, having lower expected mean squared error) than any method that handles the parameters separately. It is named after Charles Stein of Stan

biochem_fan 2013/11/25

統計

リンク

Stats 329 - Winter 2009/2010

biochem_fan 2013/11/24

統計

リンク

Gibbsサンプラーを用いた正規母集団パラメータのベイズ推定

Xi （i = 1～n）を正規母集団N（μ、σ2）からのi.i.d.サンプルとする。Rを用いたGibbsサンプラーによるμとσ2のベイズ推定例を示す。（参考文献）中妻照雄著「入門ベイズ統計学」、朝倉書店、p.145。１．事前分布２．尤度関数３．事後分布４．未知パラメータの全条件付事後分布５．Gibbsサンプラーのアルゴリズム６．Rコードの一例 library(MCMCpack) # rinvgamma（）を使用するため X <- c(0.0459, 0.0436, 0.0207, 0.0867, 0.1678, 0.1748) #データ n <- NROW(X) Xbar <- mean(X) Sum2 <- sum((X-Xbar)^2) mu0 <- 0.0 # ハイパーパラメータ sig20 <- 0.01 # ハイパーパラメータ（sig20はτ02を表す。） nu0

biochem_fan 2013/11/23

リンク

ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む

1. はじめにブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます。 2. ブートストラップ信頼区間ブートストラップ法は、理論的に求めるのが難しい統計量を、経験分布からのシンプルなリサンプリングによって推定できるという手法です。ブートストラップ法では、推定された統計量に対して、その信頼区間を求めることもできます。このような信頼区間をブートストラップ信頼区間といいます。ブートストラップ信頼区間を求める方法については色々議論があるようですが、主な手法は次の5つです。正規分布近似法ベーシック法パーセンタイル法 BCa法(bias-corrected and accelerated percentile me

biochem_fan 2013/10/26

リンク

pixivのタグ頻度から考えるラブライブのカップリング - 驚異のアニヲタ社会復帰の予備

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！というのが面白そうだったので、毎度おなじみのラブライブ!でネットワーク解析をしてみる。 pixivの小説からタグを取ってくる。作業は pixiv というフォルダとする。 # Rで tag <- "ラブライブ" page <- 1000 urls <- paste("http://spapi.pixiv.net/iphone/search_novel.php?s_mode=s_tag&p=", seq(page), "&word=", tag, sep="") write.table(urls, "urls.txt", row.names=FALSE, col.names=FALSE, quote=FALSE) こうして出来た urls.txt を wget を使って取得する。 # ターミナルで cd pixiv

biochem_fan 2013/09/05

リンク

統計的機械学習入門 | 中川研究室

導入pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル最尤推定、MAP推定データの性質情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度数学のおさらいpdf 行列の微分線形代数学の役立つ公式多次元正規分布条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方多項分布、ディリクレ分布事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布指数型分布族自然共役事前分布の最尤推定線形回帰および識別pdf 線形回帰のモデル正則化項の導入 L2正則化 L1正則化正則化項のBayes的解釈線形識別 2乗誤差最小化の線形識別の問題点生成モデルを利用した識別学習データと予測性能pdf 過学習損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

biochem_fan 2013/07/03

リンク

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

biochem_fan 2013/06/21

ワンライナーでやってるのがすごい。

リンク

http://www.singularpoint.org/blog/math/stat/dirichlet-distribution/

biochem_fan 2013/05/10

リンク

https://support.google.com/analytics/answer/2844870?hl=en

biochem_fan 2013/05/09

multi-armed bandit を使って、Web ページを比較

リンク

メタアナリシス(meta-analysis) 1 | 大阪大学腎臓内科

丹後俊郎医学統計学シリーズ2 メタ・アナリシス入門朝倉書店 2002年 Forrest plotとCumulative meta-analysis Meta-analysis (メタアナリシス)の例として、急性心筋梗塞後の患者を対象にStreptokinase（血栓溶解療法）の有効性を評価した、Lauらの報告を示します。 Lau J, et al. NEJM 327; 248-254, 1992 左図は、各々の研究結果を年代順に記載し、最後に「Combined odds ratio （統合オッズ比）」を計算するForrest Plot（木のように見えることから、このように呼ばれます）です。それに対して右図は、順次Combined Odds ratio（複合オッズ比）を計算していく方法で、Cumulative meta-analysis（累積メタアナリシス）と呼ばれます。Cumulati

biochem_fan 2013/04/17

Forrest plot, funnel plot

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

統計に関するbiochem_fanのブックマーク (22)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス