[B! stan] manabouのブックマーク

8行のデータで理解する階層ベイズ - Qiita

学習効果を統計的に評価したい！こんにちはグロービスではさまざまな教育事業を展開していますが、多くの人に学習を継続してもらうためには、研修をしたりコンテンツを視聴してもらったりするだけでなく、その学習効果を測定してユーザーにフィードバックすることが重要です。このとき、だれが見ても明らかな効果が出れば良いのですが、受講前後の成績変化のばらつきが大きかったりデータが少なかったりして、必ずしも分かりやすい結果が得られるとは限りません。そういった場合にデータを丁寧に紐解いて、どの程度効果があったのかを明らかにするのも分析の仕事のひとつです。今回は階層ベイズモデルという統計モデルを使って、高校における学力コーチングの成果についてのデータを分析します。階層ベイズはやや高度な統計モデルというイメージがありますが、この記事ではたった8行のデータを例にしてその概要を説明してみたいと思います。想定読者

manabou 2019/12/10

リンク

[Stan]生存時間分析のコードと便利なデータセットについて – かものはしの分析ブログ

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストはじめに仕事で生存時間分析を使うことは結構あるのですが、マーケティングの良いデータセットがない印象でブログにしにくいと感じていました。また、Stanでの生存時間分析の事例もあまり把握していません。そこで使えそうなデータセットやStanのコードを探して、そのデータに対して生存時間分析を適用してみたいと思います。目次・生存時間分析とは・生存時間分析で使えるデータ・生存時間分析をマーケティングで使う際の用途・先行研究・生存時間分析で使えるデータセット・Sta

manabou 2019/05/16

リンク

階層ベイズによる小標本データの比率の推定 - LIVESENSE Data Analytics Blog

こんにちは、リブセンスで統計や機械学習関係の仕事をしている北原です。今回は階層ベイズを使った小技の紹介です。推定にはStanを使います。 Webサービスに限らないかもしれませんが、CVRやCTRなど比率データを扱うことって多いですよね。弊社の求人サービスは成果報酬型であるため、各求人の採用率などを知りたいこともよくあります。しかし、求人別だとバイト求人や転職求人の応募数はそれほど多くないので、採用数を応募数で単純に割っただけでは極端な採用率になりがちです。今回は、このような分母の値が小さい比率のデータを、階層ベイズを使って計算する方法を紹介します。応募数が少ないときの採用率計算の問題まず、応募数が少ない求人の採用率計算が必要な理由と、このようなサンプルサイズが小さいデータの比率計算の問題について説明します。その問題をふまえて、今回どのような推定を行いたいかを説明します。弊社の成果報

manabou 2018/10/10

リンク

Osaka.Stan #4 Chapter 7 回帰分析の悩みどころ (7.1–7.5) 【※Docswellにも同じものを上げています】

Osaka.Stan #4 Chapter 7 回帰分析の悩みどころ (7.1–7.5) 【※Docswellにも同じものを上げています】【2022/3/14追記】Slideshareが使い物にならなくなったため，今まで上げていた資料はより高機能なDocswellに上げ直しました。混乱防止のため，Slideshare上の資料はそのうち消すかもしれませんので了承ください。 Docswellの動画リスト: https://www.docswell.com/user/mutopsy 『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4 2017.4.29）の発表資料です。Chapter 7の前半 (7.1-7.5) の内容（交互作用・対数変換・非線形回帰・多重共線性・交絡）について解説しています。 12/9追記：このスライドの紹介記事をブログに投稿しました。コピペしやすい

manabou 2017/05/02

リンク

［RStan］同時確率に基づく検索キーワードのクラスタリング（失敗版） - 廿TT

このモデルは推定するたびに結果が変わることが判明しました。申しわけありません。以下の記述はなかったことにしてください。改訂版を書きました　→　［RStan］同時確率に基づく検索キーワードのクラスタリング 2 - 廿TT はじめに検索キーワードのグルーピングがしたい。 StanとRでベイズ統計モデリング (Wonderful R) や実践ベイズモデリング -解析技法と認知モデル- では Stan を使った LDA (Latent Dirichlet Allocation) のわかりやすい解説が書かれている。 LDA は文章が複数の潜在的なトピックから確率的に生成されると仮定したモデルである。文章に複数のトピックがあると仮定するのは自然だし魅力的ではあるけれども、ぼくはとりあえず検索キーワードのグルーピングがしたい。検索クエリは短いので、トピックは一種類持っていれば十分だろうと思っ

manabou 2017/04/29

リンク

StanでAizu Online Judgeの難易度・習熟度を推定したい（３：IRTモデルによる習熟度推定） - くじらにっき++

シリーズ一覧 kujira16.hateblo.jp kujira16.hateblo.jp はじめに前回までの記事を公開したところ，Twitterで「問題に取り組んだときの正答確率の部分を項目応答理論でモデリングしないのはなぜか」というコメントをいただきました。 …すいません，項目応答理論というものを知りませんでした。指摘を頂いてから勉強したのですが，この方法でモデリングするほうが自然だと感じたので，これからは正答確率の部分を項目応答理論でモデリングしていきたいと思います。モデル式項目応答理論の1パラメータロジスティックモデルでは，習熟度の人が難易度の問題に正答する確率を以下のようにモデリングします*1。ここではロジスティック関数です。項目応答理論では被験者の習熟度と問題の難易度を同時に推定しますが，今回の記事で使うデータでは一部の問題については難易度が既に付与さ

manabou 2017/04/22

リンク

StanでAizu Online Judgeの難易度・習熟度を推定したい（２：人工データによる実験） - くじらにっき++

シリーズ一覧 kujira16.hateblo.jp kujira16.hateblo.jp 目的あるユーザがある問題に正答したというデータは得られますが，正答していない問題は，取り組んだけれども実力不足で解けなかったのか，そもそも取り組んでいないのかを区別することができません。データの生成過程についての仮説が正しかったとしても，パラメータの自由度が高すぎてパラメータ推定が行えないかもしれません。そのため，データの生成過程についての仮説は正しいと仮定して，パラメータ推定が収束するかどうか確かめるために，人工データに対してパラメータが正しく推定できるか実験してみることにしました。人工データの生成問題に取り組む確率が，平均的なパフォーマンスが，パフォーマンスのばらつきがのユーザが1人いて，[100, 1200] の一様分布に従う難易度の問題が50問ある状況を考えます。ユーザは，前

manabou 2017/04/18

リンク

科学者のあり方を変える帰納プログラミング - SmartNews Engineering Blog

こんにちは。スマートニュースの高橋力矢です。前回のブログでデータ分析+ゲーム理論を題材として、帰納と演繹をまとめる利点をお伝えしました。なんらかの入力 (e.g., ゲーム理論における利得表) があり、特定のアルゴリズム (e.g., 各プレイヤーの戦略的意思決定) を記述することで出力 (e.g., ナッシュ均衡) を得るアプローチは、ほとんどのソフトウェア・エンジニアが慣れ親しんでいるプログラミングそのものです。つまり多くのエンジニアが手がけるプログラミングの実態は演繹的プログラミングです。ではこの対極に位置する帰納プログラミング (Inductive Programming) はどの程度進歩しているでしょうか。帰納プログラミングの一分野である確率プログラミング (Probabilistic Programming) は統計学や機械学習との関係が密接で、日本でも利用者の多いStanを

manabou 2017/03/29

リンク

[stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary

概要前回の『[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary』の完成版. 忙しくて1年近く放置していた…… パラメータを推定し顧客ごとの生涯顧客価値 (CLV) の計算まで実行できた. stan は 2.14.0 を利用. 前回のは 2.9 で, 2.10 以降は構文が大きく変わっているので注意. 前回の「プログラム」以外のセクションを読んでからこちらを読むことをおすすめする. 文章量は4ページ (画像とプログラム除く) 反省点実は, こちらですでに RF 分析についての stan の一部正解コードが書かれている.abrahamcow.hatena blog.com 前回の一番の問題点は, 原理上離散的なパラメータを扱えないハミルトニアンモンテカルロ (以下, HMC) 法でを無理やり離散パラメータとして扱お

manabou 2017/02/27

リンク

統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum

2016 - 12 - 24 統計・R・Stan関連の本、用途別のオススメ10冊書評 R Stan 年末年始向けに、比較的読みやすい本を中心にオススメします。統計学入門色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと積分の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布とヒストグラム、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRなどを使いながらシンプルに説明していく本があるといいと思うのですが、なかなかバランスのとれたいい本がありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあった本を選ぶのがいいと思います。ネットで検索して調べるのでもいいと思います

manabou 2016/12/24

リンク

不等間隔の状態空間モデル - StatModeling Memorandum

日付単位とかでデータを取ることが多いこのご時世、等間隔の状態空間モデルを使うことが多いと思います。しかし、ふと不等間隔の状態空間モデルってどうやるんだろーとつぶやいたところ、ご指導いただきました。いつも大変感謝です。 .@berobero11 細かく等間隔に切って欠測扱いにするのが基本．欠測で速度のおちないブロックサンプラーが有用になる．非線形常微分方程式でデータのない部分を「解いてしまう」方法は逐次モンテカルロ限定かな？　ほとんど観測がないならカーネル回帰に直す方法もありますが端が近似になる— baibai (@ibaibabaibai) 2015, 2月 19 .@berobero11 間違ってもカルマンフィルタで補間してから，別の状態空間モデルをカルマンフィルタであてはめたりしないように．— baibai (@ibaibabaibai) 2015, 2月 19 @berobero11

manabou 2016/10/09

リンク

Tokyo.stanの感想 - xiangze's sparse blog

stan開発者の一員であるBetancourtさんを招いたTokyo.stanを聴きにいきました。 Michael Betancourt's Stan Lectureを開催しました - StatModeling Memorandum 自分はstanを余り使いこなせていないのですが、主にアルゴリズムと実装に関する感想を書きます。 HMCの説明をされている中で推定されるべき事後分布の関数の等高線を回るようにサンプルしているという説明が非常に明快でした。事後分布の勾配である"重力"に対して直交する方向に運動量が存在すれば分布の極大値にとどまらずにその周囲を回るようにサンプリングがされます。ニュートン力学そのものです。赤が勾配、青が運動量最適化問題は山を登るか(下る)ような勾配系の問題としてイメージできますが、MCMCは分布を推定するので相空間を等エネルギー面に沿ってぐるぐる回るハミルトン系の

manabou 2016/06/08

リンク

自動微分変分ベイズ法の紹介

PRML上巻勉強会 at 東京大学の資料です。この資料はChristopher M. Bishop 著「Pattern Recognition and Machine Learning」の日本語版「パターン認識と機械学習上 - ベイズ理論による統計的予測」について補足説明を入れた上でなるべくわかりやすくしたものです。本資料では第３章の前半、特に3.1節を中心に解説しています。詳しくはこちらのサイト（外部）を御覧ください。 http://ibisforest.org/index.php?PRML

manabou 2016/06/08

リンク

二つの時系列データの間に「差」があるか判断するには - StatModeling Memorandum

詳しい経緯はこのまとめを参照してください。時間軸でぶった切って各時点で検定を使う手法は、百歩譲って「差があるかどうか」は判定できるかもしれないけど、「どれほど異なるのか」については何も言えない。「どの時刻から異なるか」についても言えるか分からない。そこでベイズ統計モデリングで判断しようと思います。ベイズ統計モデリングでは多くの事前知識を仮定としてモデルに組み込みますが、検定も多くの仮定を前提にしている点は同様と思います。データは雰囲気だけ似せて自作しました。野生型100個体、変異体10個体で1～24まで1時間ずつ測定して24時点としました。まとめを見ると144時間みたいですが24時間に簡略化します。データの構成は以下です。 typeX1X2…X23X2400.0710.555…-0.236-0.59700.4450.483…-0.1490.23100.2250.764…-0.116-0.

manabou 2016/06/06

リンク

時系列データにt 検定を行うことに関してstan 神の解析がやばい - 驚異のアニヲタ社会復帰の予備

時系列データにt 検定を行うことに関して、すごいもにょっていたのだが、そもそもstan 神が既にモデル化してくれていた。リンクでは2階差分と、変化点検出のコーシー分布の合わせ技を用いている。そのままパクってやってみる。 diの95%ベイズ信頼区間が0を含んでいない期間が差がある期間と言えるでしょう。さらに、どこから差がありそうなのか、どれほど差がありそうなのかも確率付きで述べることができます。ということが、stan による柔軟なモデリングで述べることができます。話は飛ぶけど、読んだ。はじめての統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本（ソフトカバー）この商品を含むブログ (11件) を見る書評はまた書くけれども、この時系列データと同じように、この本では、例えば分散分析や分

manabou 2016/06/06

リンク

実践統計モデリング入門【1. 概要・目次】 - ほくそ笑む

【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。【宣伝終】はじめに統計モデリングは今後ますます重要になってくる技術です。現在、Web 上には統計モデリングに関する様々な優良記事があります。それらの記事は、完成したモデルをスマートに提示しているものが多いようです。しかし、実際の統計モデリングの現場は決してスマートなものではなく、様々な泥臭い試行錯誤を行いながら地道にモデルを構築していきます。この一連の記事では、最終的なモデルの完成形をいきなり提示するのではなく、モデル構築の手順をスッテプバイス

manabou 2015/05/12

リンク

欠測データの相関係数の推定法について発表しました - ほくそ笑む

先日行われた BUGS/stan勉強会 #3 で発表させていただきました。タイトルは「Stan で欠測データの相関係数を推定してみた」です。欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観測できていない不完全データを用いて推定精度を上げる方法を紹介しています。スライドは下記にアップしています。 Stan で欠測データの相関係数を推定してみた from hoxo_m 最終的なコード全体はこちらに載せています。 Stan の勉強にあたっては、ごみ箱さん、beroberoさん、伊東さんにアドバイスを頂きました。ありがとうございます。 hoxo_mさんのバイアスの掛かったデータの相関係数の問題、よく使われる統計手法からの発展としてすごくいい例だし、片方しか観測されていないデータを使ってもあれほど改善するとは驚いた。#Tok

manabou 2014/07/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (24)

stanに関するmanabouのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス