都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 前回の分析では、価格への反応係数の事前分布が正規分布を仮定したモデルを用いていましたが、事後分布から多峰性が観察されました。そこで今回は、各個人の価格への反応係数の事前分布が混合ガウス分布に従うとした場合の事例を扱いたいと思います。 データのおさらい データ自体は前回のブログと同じですが、先日のTokyo.Rで松浦さんがオススメしていたGGallyパッケージのggpairs関数を用いて、今回扱うデータを可視化してみます。 まず、購買したマーガリンのブランド選択(6ブラ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに ゴールデンウィークで実家に持ち込む本としてチョイスしたのが、2005年出版の「Bayesian Statistics and Marketing」です。大学院のときに購入して、ちょっとしか読んでませんでした。 この本は、字面の通りマーケティング関連の分析に関してベイズ統計を使ってアプローチするというもので、この書籍のために作られた、Rのbayesmというパッケージの紹介もあり、理論だけでなくRで実践することもできます。1章から7章までの全ての分析事例に対して
声優の主役力の推定をモデル化してRstanでやってみる話の導入。 声優統計第五号に、主役力 : キャストの表記順に着目したプレイヤーレーティング、という論文があるが、これはTrue skill というモデル(これとかこれとか)を用いている。1対1のペアを作るが、同一アニメでのキャストは上から重要人物が挙げられているだろうという仮説に基づく。この記事で言えば、.lainによると 順位 アニメ役 声優 1 大宮忍 西明日香 2 アリス・カータレット 田中真奈美 3 小路綾 種田梨沙 4 猪熊陽子 内山夕実 5 九条カレン 東山奈央 6 大宮勇 田村ゆかり 7 烏丸さくら(烏丸先生) 佐藤聡美 8 松原穂乃花 諏訪彩花 9 忍のお母さん 高橋美佳子 10 以下省略 数十人いる となっている。先の論文では 西明日香は下位のキャストにすべて勝っている 田中真奈美は下位のキャストにすべて勝っている ・
背景 しつこいようですが、Marketing Mix Modeling(MMM)の話題です。 先日、こんな面白い論文を見つけました。 GoogleのResearcherによるMMMの論文(彼らはMedia Mix Modelingと呼んでいます)なのですが、ヒルの式を用いて広告のShape効果(Carveture効果)を推定するということをやっています。ここでShape効果・carveture効果とは、メディアの露出量に対する目的変数の反応を示す曲線を指すようで、ヒルの式とは: $$ H(x; K, S) = \frac{1}{1 + (\frac{x}{K})^{-S}} $$ であり、$K > 0$や$S > 0$となるパラメータによってLogやSigmoidの形状を表現することができるようです。 ヒルの式によってxがどのような形状となるか、実際に確認してみましょう。まずはヒルの式を以
この記事は以下のツイートを拝見してやってみようと思いました。 #統計 #Baysian もしも「元論文の式(20)をβ₁=1, β₂=1/log nの場合に適用した公式を使ってWBICを計算すると事後分布のサンプルの違いによる分散が大きくなる」とか「直接逆温度1/log nの事後分布のサンプルを生成して計算した方が精度が高い」とかの情報を知っている人がいたら教えて下さい。— 黒木玄 Gen Kuroki (@genkuroki) 2017年11月10日 ツイートで言及されている渡辺先生の論文は以下です。 S Watanabe (2013) "A widely applicable Bayesian information criterion" Journal of Machine Learning Research 14 (Mar), 867-897 (pdf file) この記事では、以
この記事は Stan Advent Calendar 2017 17日目の記事です。 はじめに モデルを立ててパラメータを推定した後で,事後分布から乱数を生成し,将来のデータと観測データの整合性を確認する,事後予測チェックを行うことが推奨されています。立てたモデルから生成したデータが,実際に得られた観測データと整合していたとしたら,そのモデルは現象をとらえていると考えることが出来るからです。 本記事では,視覚的に事後予測チェックを行う方法の一つを紹介します。 モデル 種々の車両に関するデータセットである,mtcarsを使用して例示します。車の排気量(displ)を重量(wt)で予測してみましょう。重い車両ほど排気量が増えると考えられます。実際,データはほぼ一直線上に乗っているように見えます。 この単回帰モデルをStanで書くと以下の通りとなります(StanとRでベイズ統計モデリング7章のコ
こんな記事があった。あるアニメショップでキャラの人気投票をしたら、ラブライブにおいてμ's のメンバーのほうが、Aqours のメンバーより総じて上位だったらしい。 というわけで、2グループの人気はどれくらいの差かを考える。 2グループ各9人、全部で18人のキャラの得票数がある。あるベース に各キャラの効果、グループ効果 があり、18 人の所属は であるとする。18人のハイパーパラメータは 投票確率 はディリクレ分布 得票数は多孔分布 でサンプリングされるとする。 結果としては 程度が多く、収束しなかった。また、n_eff が全然なかった。 また、 が何十万とかなって単純にμ's だと何倍人気になる、というのがわかりにくかったので、 の事後分布を各グループについて中央値を取って何倍人気に差があるか、にしている。すると2.5倍くらいμ's とAqours に人気の差があるようだった。 a <
Stanのマニュアルの「Gaussian Processes」の章を実際に実行しましたので記録を残します。結論から言いますと、Stanでやる場合は回帰はよいですがクラス分類に使おうとすると計算が遅いし収束も悪いです。 まずGaussian Process(以下GPと呼ぶ)とは何ぞやということですがgpml(ぐぷむる?)として有名な次の書籍の1章が分かりやすいです。→Gaussian Processes for Machine Learning これを咀嚼して勝手に補完してまとめたものが以下になります。 GPは教師あり学習の一手法です。教師あり学習では有限のトレーニングデータから関数を作ることになります。関数はありとあらゆる入力の値に対して予測値を返すものです。この関数を決めるにあたり、2つのアプローチがあります。1つめは関数をあるクラス(例えば線形だとか)に限定するものです。しかしこれは採
Twitterでこの記事をシェアする author: Mr.Unadon (見習い飯炊き兵) 動作環境:Mac OS Sierra 10.12.1; R version3.3.2; rstan 2.10.1 はじめに 時系列の二値データが得られる場合というのは多々あることと思います。連続量だけどデータがどうもよくないので「購入 vs 未購入」に変数変換したという場合などです。 行動実験での時系列データも二値データの場合があるかもしれません。 今回は、二値データ生起確率の時系列推移を推定・定量化してみたいと思います。 例として、「365日のデータで、CVがあった日とCVがなかった日」のデータを想定しました。CVとは、サイトクリックや訪問行動などの目的としたい出来事を指します。 パッケージとサンプルデータの読み込み。 0と1の365個の値、2016年1月1日から12月30日の365個のデータを
この記事はStan Advent Calendar 2016およびR Advent Calendar 2016の12月7日の記事です。StanコードとRコードは記事の最後にあります。 背景は以下です。 [1] Aki Vehtari, Andrew Gelman, Jonah Gabry (2015). Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC. arXiv:1507.04544. (url) [2] 渡辺澄夫. 広く使える情報量規準(WAIC)の続き (注4)【WAICとクロスバリデーションの違いについて】 (url) [3] Sumio Watanabe. Comparison of PSIS Cross Validation with WAIC. (url) le
概要 前回の『[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary』の完成版. 忙しくて1年近く放置していた…… パラメータを推定し顧客ごとの生涯顧客価値 (CLV) の計算まで実行できた. stan は 2.14.0 を利用. 前回のは 2.9 で, 2.10 以降は構文が大きく変わっているので注意. 前回の「プログラム」以外のセクションを読んでからこちらを読むことをおすすめする. 文章量は4ページ (画像とプログラム除く) 反省点実は, こちらですでに RF 分析についての stan の一部正解コードが書かれている.abrahamcow.hatenablog.com 前回の一番の問題点は, 原理上離散的なパラメータを扱えないハミルトニアンモンテカルロ (以下, HMC) 法で を無理やり離散パラメータとして扱お
RStan2.9.0がリリースされました。今まで{rstan}パッケージのsampling関数を使っていたところを、vb関数に変更するだけでサンプリングのアルゴリズムをNUTSからADVI(Automatic Differentiation Variational Inference)に変更することができます。ADVIはユーザーが変分下限の導出や近似分布qを用意をすることなしに、自動的に変分ベイズしてくれます。得られるアウトプットはNUTSとほぼ同様で近似事後分布からの乱数サンプルです。ウリはスピードです。NUTSもADVIもデフォルトのオプションのまま実行して、NUTSと比べて50倍ぐらいスピードが出ることもあります。 NUTSと同様にADVIは効率的な探索のため偏微分を使っているので、離散値をとるパラメータは使えませんが、やはり同様に離散パラメータを消去すれば実行できます。そして、微分
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く