[B! Stan][R] abrahamcowのブックマーク

https://github.com/facebook/prophet/tree/master/R/man

abrahamcow 2018/07/19

リンク

Step by step guide for creating a package that depends on RStan

abrahamcow 2018/07/19

R
Stan

リンク

Bayesian Statistics and Marketing – 混合ガウス×階層モデルのマーガリン購買データへの適用 – かものはしの分析ブログ

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリスト前回の分析では、価格への反応係数の事前分布が正規分布を仮定したモデルを用いていましたが、事後分布から多峰性が観察されました。そこで今回は、各個人の価格への反応係数の事前分布が混合ガウス分布に従うとした場合の事例を扱いたいと思います。データのおさらいデータ自体は前回のブログと同じですが、先日のTokyo.Rで松浦さんがオススメしていたGGallyパッケージのggpairs関数を用いて、今回扱うデータを可視化してみます。まず、購買したマーガリンのブランド選択(6ブラ

abrahamcow 2018/06/19

stan
R

リンク

Bayesian Statistics and Marketingの5章 – 家計の異質性を考慮した階層ベイズモデル – かものはしの分析ブログ

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストはじめにゴールデンウィークで実家に持ち込む本としてチョイスしたのが、2005年出版の「Bayesian Statistics and Marketing」です。大学院のときに購入して、ちょっとしか読んでませんでした。この本は、字面の通りマーケティング関連の分析に関してベイズ統計を使ってアプローチするというもので、この書籍のために作られた、Rのbayesmというパッケージの紹介もあり、理論だけでなくRで実践することもできます。1章から7章までの全ての分析事例に対して

abrahamcow 2018/05/28

R
stan

リンク

声優の主役力をRstanでやる - 驚異のアニヲタ社会復帰の予備

声優の主役力の推定をモデル化してRstanでやってみる話の導入。声優統計第五号に、主役力 : キャストの表記順に着目したプレイヤーレーティング、という論文があるが、これはTrue skill というモデル(これとかこれとか)を用いている。1対1のペアを作るが、同一アニメでのキャストは上から重要人物が挙げられているだろうという仮説に基づく。この記事で言えば、.lainによると順位アニメ役声優 1 大宮忍西明日香 2 アリス・カータレット田中真奈美 3 小路綾種田梨沙 4 猪熊陽子内山夕実 5 九条カレン東山奈央 6 大宮勇田村ゆかり 7 烏丸さくら（烏丸先生）佐藤聡美 8 松原穂乃花諏訪彩花 9 忍のお母さん高橋美佳子 10 以下省略数十人いるとなっている。先の論文では西明日香は下位のキャストにすべて勝っている田中真奈美は下位のキャストにすべて勝っている・

abrahamcow 2018/04/15

R
Stan

リンク

Ad-Stock効果を推定しつつ回帰を回したい⑤ - 統計コンサルの議事メモ

背景しつこいようですが、Marketing Mix Modeling（MMM）の話題です。先日、こんな面白い論文を見つけました。 GoogleのResearcherによるMMMの論文（彼らはMedia Mix Modelingと呼んでいます）なのですが、ヒルの式を用いて広告のShape効果（Carveture効果）を推定するということをやっています。ここでShape効果・carveture効果とは、メディアの露出量に対する目的変数の反応を示す曲線を指すようで、ヒルの式とは： $$ H(x; K, S) = \frac{1}{1 + (\frac{x}{K})^{-S}} $$ であり、$K > 0$や$S > 0$となるパラメータによってLogやSigmoidの形状を表現することができるようです。ヒルの式によってxがどのような形状となるか、実際に確認してみましょう。まずはヒルの式を以

abrahamcow 2018/04/03

リンク

RPubs - RStanのおさらいをしながら読む岩波DS 1

Hide Comments (–) Share Hide Toolbars

abrahamcow 2018/02/09

R
stan

リンク

逆温度1の事後分布のサンプルからWBICを計算する - StatModeling Memorandum

この記事は以下のツイートを拝見してやってみようと思いました。 #統計 #Baysian もしも「元論文の式(20)をβ₁=1, β₂=1/log nの場合に適用した公式を使ってWBICを計算すると事後分布のサンプルの違いによる分散が大きくなる」とか「直接逆温度1/log nの事後分布のサンプルを生成して計算した方が精度が高い」とかの情報を知っている人がいたら教えて下さい。— 黒木玄 Gen Kuroki (@genkuroki) 2017年11月10日ツイートで言及されている渡辺先生の論文は以下です。 S Watanabe (2013) "A widely applicable Bayesian information criterion" Journal of Machine Learning Research 14 (Mar), 867-897 (pdf file) この記事では、以

abrahamcow 2018/01/27

R
Stan

リンク

ggfanパッケージを用いて事後予測チェックを行う - Qiita

この記事は Stan Advent Calendar 2017 17日目の記事です。はじめにモデルを立ててパラメータを推定した後で，事後分布から乱数を生成し，将来のデータと観測データの整合性を確認する，事後予測チェックを行うことが推奨されています。立てたモデルから生成したデータが，実際に得られた観測データと整合していたとしたら，そのモデルは現象をとらえていると考えることが出来るからです。本記事では，視覚的に事後予測チェックを行う方法の一つを紹介します。モデル種々の車両に関するデータセットである，mtcarsを使用して例示します。車の排気量（displ）を重量（wt）で予測してみましょう。重い車両ほど排気量が増えると考えられます。実際，データはほぼ一直線上に乗っているように見えます。この単回帰モデルをStanで書くと以下の通りとなります（StanとRでベイズ統計モデリング7章のコ

abrahamcow 2017/12/17

R
Stan

リンク

Bayesian Modeling for human activity data (reported at the MathPsych2017) – MrUnadon – Bayesian Statistical Modelings with R and Rstan

abrahamcow 2017/07/21

Stan
R

リンク

A book on RStan in Japanese: Bayesian Statistical Modeling Using Stan and R (Wonderful R, Volume 2) | Statistical Modeling, Causal Inference, and Social Science

abrahamcow 2017/06/29

Stan
R

リンク

μ's とAqours の人気の差 - 驚異のアニヲタ社会復帰の予備

こんな記事があった。あるアニメショップでキャラの人気投票をしたら、ラブライブにおいてμ's のメンバーのほうが、Aqours のメンバーより総じて上位だったらしい。というわけで、2グループの人気はどれくらいの差かを考える。 2グループ各9人、全部で18人のキャラの得票数がある。あるベースに各キャラの効果、グループ効果があり、18 人の所属はであるとする。18人のハイパーパラメータは投票確率はディリクレ分布得票数は多孔分布でサンプリングされるとする。結果としては程度が多く、収束しなかった。また、n_eff が全然なかった。また、が何十万とかなって単純にμ's だと何倍人気になる、というのがわかりにくかったので、の事後分布を各グループについて中央値を取って何倍人気に差があるか、にしている。すると2.5倍くらいμ's とAqours に人気の差があるようだった。 a <

abrahamcow 2017/06/24

リンク

{rstan} Rstanでガウス過程の実装 - Qiita

一次元のN個の入力$x$と対応する出力$y$を想定する。出力が未知の入力$x_2$を考え、これに対応する$y_2$を推定する。承前：ガウス過程の考え方参考：・ガウス過程シリーズ1 概要・ガウス過程シリーズ2 高速化&フルベイズ・『StanとRでベイズ統計モデリング』・『Gaussian Processes for Machine Learning』・『パターン認識と機械学習 (下)』 0. sample data まずはRでサンプルデータを作ろう。

abrahamcow 2017/06/21

R
Stan

リンク

ガウス過程シリーズ 1 概要 - StatModeling Memorandum

Stanのマニュアルの「Gaussian Processes」の章を実際に実行しましたので記録を残します。結論から言いますと、Stanでやる場合は回帰はよいですがクラス分類に使おうとすると計算が遅いし収束も悪いです。まずGaussian Process（以下GPと呼ぶ）とは何ぞやということですがgpml（ぐぷむる？）として有名な次の書籍の1章が分かりやすいです。→Gaussian Processes for Machine Learning これを咀嚼して勝手に補完してまとめたものが以下になります。 GPは教師あり学習の一手法です。教師あり学習では有限のトレーニングデータから関数を作ることになります。関数はありとあらゆる入力の値に対して予測値を返すものです。この関数を決めるにあたり、2つのアプローチがあります。1つめは関数をあるクラス（例えば線形だとか）に限定するものです。しかしこれは採

abrahamcow 2017/05/25

Stan
R

リンク

二値データの時系列解析<br/>ベータ分布のベイジアン動的モデル – MrUnadon – Bayesian Statistical Modelings with R and Rstan

Twitterでこの記事をシェアする author: Mr.Unadon (見習い飯炊き兵) 動作環境:Mac OS Sierra 10.12.1; R　version３.３.2; rstan 2.10.1 はじめに時系列の二値データが得られる場合というのは多々あることと思います。連続量だけどデータがどうもよくないので「購入 vs 未購入」に変数変換したという場合などです。行動実験での時系列データも二値データの場合があるかもしれません。今回は、二値データ生起確率の時系列推移を推定・定量化してみたいと思います。例として、「365日のデータで、CVがあった日とCVがなかった日」のデータを想定しました。CVとは、サイトクリックや訪問行動などの目的としたい出来事を指します。パッケージとサンプルデータの読み込み。 0と１の365個の値、2016年１月１日から12月30日の365個のデータを

abrahamcow 2017/05/08

R
Stan

リンク

情報量規準LOOCVとWAICの比較 - StatModeling Memorandum

この記事はStan Advent Calendar 2016およびR Advent Calendar 2016の12月7日の記事です。StanコードとRコードは記事の最後にあります。背景は以下です。 [1] Aki Vehtari, Andrew Gelman, Jonah Gabry (2015). Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC. arXiv:1507.04544. (url) [2] 渡辺澄夫. 広く使える情報量規準(WAIC)の続き（注４）【WAICとクロスバリデーションの違いについて】 (url) [3] Sumio Watanabe. Comparison of PSIS Cross Validation with WAIC. (url) le

abrahamcow 2017/04/15

Stan
R

リンク

[stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary

概要前回の『[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary』の完成版. 忙しくて1年近く放置していた…… パラメータを推定し顧客ごとの生涯顧客価値 (CLV) の計算まで実行できた. stan は 2.14.0 を利用. 前回のは 2.9 で, 2.10 以降は構文が大きく変わっているので注意. 前回の「プログラム」以外のセクションを読んでからこちらを読むことをおすすめする. 文章量は4ページ (画像とプログラム除く) 反省点実は, こちらですでに RF 分析についての stan の一部正解コードが書かれている.abrahamcow.hatena blog.com 前回の一番の問題点は, 原理上離散的なパラメータを扱えないハミルトニアンモンテカルロ (以下, HMC) 法でを無理やり離散パラメータとして扱お

abrahamcow 2017/02/26

Stan
R

リンク

NUTSとADVI（自動変分ベイズ）の比較 - StatModeling Memorandum

RStan2.9.0がリリースされました。今まで{rstan}パッケージのsampling関数を使っていたところを、vb関数に変更するだけでサンプリングのアルゴリズムをNUTSからADVI（Automatic Differentiation Variational Inference）に変更することができます。ADVIはユーザーが変分下限の導出や近似分布qを用意をすることなしに、自動的に変分ベイズしてくれます。得られるアウトプットはNUTSとほぼ同様で近似事後分布からの乱数サンプルです。ウリはスピードです。NUTSもADVIもデフォルトのオプションのまま実行して、NUTSと比べて50倍ぐらいスピードが出ることもあります。 NUTSと同様にADVIは効率的な探索のため偏微分を使っているので、離散値をとるパラメータは使えませんが、やはり同様に離散パラメータを消去すれば実行できます。そして、微分