タグ

統計に関するbiochem_fanのブックマーク (22)

  • 統計的学習理論(1): フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記(ミラー版)

    勉強したことメモ。数式を使わずに書く。 また、行間をスキップせずに、多少くどいかもしれないくらいにきっちり順を追って説明を書いたので長いけどわかりやすくなっているはず。 第一回はベイズの手前まで、最尤法のあたりまでの話をする。 推定量 データを表す確率変数があってその密度関数は何らかのパラメータであらわされているとする。観測したデータから合理的にパラメータを決定するタスクのことを推定という。 推定を世界で最初にガッチリ研究したのはフィッシャーという人で、彼は推定方法の良しあしを判断する基準として、(A)不偏性、(B)有効性、(C)一致性、(D)漸近正規性、(E)十分性、などを考えた。 データからパラメータを推定する手続きは、データの関数として表せる。そういう関数を推定関数、そうやって計算した値を推定量と呼ぶ。 観測されうるデータは確率変数なので、推定量も確率変数となる。 推定量が確率変数だ

    統計的学習理論(1): フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記(ミラー版)
    biochem_fan
    biochem_fan 2014/08/30
    どれが何の関数か考えることが大事
  • スパイク統計モデル入門

  • 草薙メソ2014 2 ブートストラップ

  • TrueSkillモデルの紹介

    TrueSkillモデルの紹介 Presentation Transcript TrueSkillモデルの紹介 2013.9.29 @berobero11 BUGS/Stan勉強会 #1 於 ドリコム • 導入 • 戦闘力を推定してみよう • プロ棋士の強さを推定してみよう 1 2 3 • 導入 • 戦闘力を推定してみよう • プロ棋士の強さを推定してみよう 1 2 3 平野早矢香 と 福原愛 Photo 世界ランク 15位 レーティングポイント 2627 格上にもよく勝つ 格下にもよく負ける Photo 世界ランク 28位 レーティングポイント 2475 格上にはなかなか勝てない 格下にはほとんど負けない レーティングポイント ☺ 計算が簡単 ☹ 落ち着くまでは初期レートに強く依存 ☹ 勝負ムラは考慮してない ☹ 強い or 弱い人のレートの動きがヤヴァイ http://ja.wikip

  • 階層ベイズモデルで勝敗データからプロ棋士の強さを推定してみました

    タイミングの悪さに定評があるberoberoです。以前の記事のTrue Skillモデルを若干拡張して、勝敗データから将棋のプロ棋士の強さ(skill)を推定しました。 まず勝敗データとレーティングの値ですが、こちらのサイトを参考にさせていただきました。このようなデータを日々更新していくのには多大な努力と忍耐がないとできません。素晴らしいサイトです。 モデルのBUGSコードは以下のようになりました。 今回は以前よりはデータが豊富にあるため、skillをこの10年の時系列に沿ったARモデルにしています。1年ごとに対局データを分けて、1年ごとにskillを推定しています。また個人ごとの勝負におけるムラも推定しています。こちらはARモデルにすると収束が著しく悪くなったため、時刻で不変としました。ほんとは禁酒しただとか彼女と別れただとかで勝負ムラも変わってくると思うんですけどデータ不足で推定は厳し

    階層ベイズモデルで勝敗データからプロ棋士の強さを推定してみました
  • 十分統計量 (Sufficient Statistics) って何なのさ? - あらびき日記

    この記事は abicky.net の 十分統計量 (Sufficient Statistics) って何なのさ? に移行しました

    十分統計量 (Sufficient Statistics) って何なのさ? - あらびき日記
  • 「偏差値の低そうな学校名」に関する考察 - MEMORANDUM

    2013-12-21 「偏差値の低そうな学校名」に関する考察 R Mathematics 非常にアレな言い方ではあるが,世の中には「偏差値の低そうな学校名」や「偏差値の高そうな学校名」があると思う. そこで「偏差値の低そうな学校名」というものは存在しないのか,あるいは字面からある程度偏差値を予測することは可能なのか,という疑問に対する1つの答えを出したい. 今回は,各高校名を構成する文字から,重回帰分析で偏差値を予測することで,これを確かめる. 始めに この記事は,自分で取得した偏差値データをムリヤリ重回帰分析の手法にねじ込んで遊んでいるだけの記事なので,絶対に真に受けてはいけない. 調査について 調査対象 今回は,高校について調査を行う.偏差値データはH25の予測偏差値を用いる. 各学校の偏差値データの取得 例によって全国高校受験ナビから取得する.詳細な取得方法については各高校の偏差値の

    「偏差値の低そうな学校名」に関する考察 - MEMORANDUM
  • Rで可視化。Pixivタグ検索結果からデンドログラムを出力 - Qiita

    出力イメージ 概要 Pixivタグ間の関係を調べる為にクラスター分析を行い、その結果をデンドログラムで可視化する。 処理 01.Pixivタグ検索結果からタグ間のクロス集計データを作る。(Ruby) -> Rubyで前処理。Pixivのタグ検索結果からクロス集計データを作る 艦隊これくしょん,百合,艦これ,加賀,赤城,赤賀,大北,天龍,大井,鈴熊,北上,龍田,天龍田,女性提督 艦隊これくしょん,294,283,227,70,61,52,24,21,20,19,19,18,15,15 百合,283,288,223,69,60,52,24,20,20,19,19,17,14,15 艦これ,227,223,233,57,49,42,16,21,13,17,13,18,15,12 加賀,70,69,57,70,58,39,0,1,0,2,0,1,1,1 赤城,61,60,49,58,61,39,0

    Rで可視化。Pixivタグ検索結果からデンドログラムを出力 - Qiita
  • 文系のための「擬逆行列」(2)

    とりあえず、小麦粉の総量例を考えてみると、 ホットケーキの小麦粉、ドーナツの小麦粉、カステラの小麦粉のそれぞれの分量と 作りたい個数を掛けて足せば良いのだから、この場合は、 小麦粉の総分量= (50.0 ✕ 2)+(7.0 ✕ 10) +(75 ✕ 1) となる。これは行列の掛け算で簡単に計算することができる。 行列の掛け算のルールは、「横✕縦」が原則であった。 つまり、以下のような式を考えれば良いことになる。 となるはず。Rで実際に計算して確かめてみる。 たしか、行列の「掛け算」のときには「%*%」を使うのだった。 # 作りたい個数を変数にセットする。 pieces <- c(2, 10, 1) # 次に、行列の掛け算を実行 A %*% pieces 以下がこの行列の計算結果。 > # 次に、行列の掛け算を実行 > A %*% pieces [,1] flour  245 egg    

    biochem_fan
    biochem_fan 2014/03/23
    分かりやすい例とRコード
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
    biochem_fan
    biochem_fan 2013/12/17
    MMO って経済学の研究対象として面白いという話を聞いたことがあるが、行動とか発話の研究素材としても面白いんだな。
  • Stein's example - Wikipedia

    In decision theory and estimation theory, Stein's example (also known as Stein's phenomenon or Stein's paradox) is the observation that when three or more parameters are estimated simultaneously, there exist combined estimators more accurate on average (that is, having lower expected mean squared error) than any method that handles the parameters separately. It is named after Charles Stein of Stan

  • Stats 329 - Winter 2009/2010

  • Gibbsサンプラーを用いた正規母集団パラメータのベイズ推定

    Xi (i = 1~n)を正規母集団N(μ、σ2)からのi.i.d.サンプルとする。Rを用いたGibbsサンプラーによるμとσ2のベイズ推定例を示す。 (参考文献)中照雄著「入門ベイズ統計学」、朝倉書店、p.145。 1.事前分布 2.尤度関数 3.事後分布 4.未知パラメータの全条件付事後分布 5.Gibbsサンプラーのアルゴリズム 6.Rコードの一例 library(MCMCpack) # rinvgamma()を使用するため X <- c(0.0459, 0.0436, 0.0207, 0.0867, 0.1678, 0.1748) #データ n <- NROW(X) Xbar <- mean(X) Sum2 <- sum((X-Xbar)^2) mu0 <- 0.0 # ハイパーパラメータ sig20 <- 0.01 # ハイパーパラメータ (sig20はτ02を表す。) nu0

  • ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む

    1. はじめに ブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。 今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます。 2. ブートストラップ信頼区間 ブートストラップ法は、理論的に求めるのが難しい統計量を、経験分布からのシンプルなリサンプリングによって推定できるという手法です。 ブートストラップ法では、推定された統計量に対して、その信頼区間を求めることもできます。 このような信頼区間をブートストラップ信頼区間といいます。 ブートストラップ信頼区間を求める方法については色々議論があるようですが、主な手法は次の5つです。 正規分布近似法 ベーシック法 パーセンタイル法 BCa法(bias-corrected and accelerated percentile me

    ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む
  • pixivのタグ頻度から考えるラブライブのカップリング - 驚異のアニヲタ社会復帰の予備

    進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!というのが面白そうだったので、毎度おなじみのラブライブ!でネットワーク解析をしてみる。 pixiv小説からタグを取ってくる。作業は pixiv というフォルダとする。 # Rで tag <- "ラブライブ" page <- 1000 urls <- paste("http://spapi.pixiv.net/iphone/search_novel.php?s_mode=s_tag&p=", seq(page), "&word=", tag, sep="") write.table(urls, "urls.txt", row.names=FALSE, col.names=FALSE, quote=FALSE) こうして出来た urls.txt を wget を使って取得する。 # ターミナルで cd pixiv

    pixivのタグ頻度から考えるラブライブのカップリング - 驚異のアニヲタ社会復帰の予備
  • 統計的機械学習入門 | 中川研究室

    導入pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 最尤推定、MAP推定 データの性質 情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度 数学のおさらいpdf 行列の微分 線形代数学の役立つ公式 多次元正規分布 条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
    biochem_fan
    biochem_fan 2013/06/21
    ワンライナーでやってるのがすごい。
  • http://www.singularpoint.org/blog/math/stat/dirichlet-distribution/

    http://www.singularpoint.org/blog/math/stat/dirichlet-distribution/
  • https://support.google.com/analytics/answer/2844870?hl=en

    biochem_fan
    biochem_fan 2013/05/09
    multi-armed bandit を使って、Web ページを比較
  • メタアナリシス(meta-analysis) 1 | 大阪大学腎臓内科

    丹後俊郎 医学統計学シリーズ2 メタ・アナリシス入門 朝倉書店 2002年 Forrest plotとCumulative meta-analysis Meta-analysis (メタアナリシス)の例として、急性心筋梗塞後の患者を対象にStreptokinase(血栓溶解療法)の有効性を評価した、Lauらの報告を示します。 Lau J, et al. NEJM 327; 248-254, 1992 左図は、各々の研究結果を年代順に記載し、最後に「Combined odds ratio (統合オッズ比)」を計算するForrest Plot(木のように見えることから、このように呼ばれます)です。それに対して右図は、順次Combined Odds ratio(複合オッズ比)を計算していく方法で、Cumulative meta-analysis(累積メタアナリシス)と呼ばれます。Cumulati

    biochem_fan
    biochem_fan 2013/04/17
    Forrest plot, funnel plot