タグ

2023年1月10日のブックマーク (7件)

  • Stanの関数を使ってRを拡張して高速化する - StatModeling Memorandum

    C++に自動で変換される)Stanの関数を使ってRを拡張できる機能が、Stan/RStanの2.16で実装開始されて2.17でほぼ完成しました。Rを高速化するためにC++(とRcpp)はあまり書きたくないけれど、Stanの関数なら書いてもいいよという僕得な機能です。この記事ではその方法を簡単に紹介します。 元にした資料はRStanの開発者であるBenさんがStanCon2018で発表したこちらの資料です。 ここでは例として、以下の2つの関数をRで使えるようにしましょう。 1) 機械学習分野でおなじみのlog_sum_exp関数 引数はN個の正の実数 2) データにemax modelという曲線をあてはめた場合の対数尤度を返す関数 引数はデータ(N個のXとYのペア)とパラメータの値 手順は簡単で以下だけです。 functionsブロックだけ書いたstanファイルを用意する R側でrstan

    Stanの関数を使ってRを拡張して高速化する - StatModeling Memorandum
    sh19910711
    sh19910711 2023/01/10
    2018 / "rstan::expose_stan_functions / Rを高速化するためにC++(とRcpp)はあまり書きたくないけれど、Stanの関数なら書いてもいいよという僕得な機能 / Stanの長所を非常に簡単にRのコーディングに取り込める"
  • 【因果推論】”Statistical Rethinking” (R/Stan) - The Big Computing

    Statistical Rethinkingの日語版が無いので日語情報を書いてみました。Statistical Rethinkingは「統計を考え直そう」という意味です。Rとstan(rstan)で実用的なベイズ推定手法だけではなく、統計学に対する深い洞察が語られているのが特徴です。 ※画像はいらすとや様の「ぬりかべ」で純粋な向上心をあらわしています。 それでは統計学の何を考え直すのでしょうか。 1.「帰無仮説を棄却することはポパーの言う『反証可能性』を満たさないがそれはなぜか?」 2.「2つの正反対の仮説が同一の統計モデルに帰着してしまうことがあるがそれはなぜか?」 3.「全てのモデルは厳密にはFalseだが、モデルを反証する(Falsify)という行為は何を意味しているのか。最初からFalseであるとわかっているのに。」 4.「なんと単回帰でさえ失敗する場合が応用上よくある。どんな

    sh19910711
    sh19910711 2023/01/10
    "回帰はできるが仕組みには納得していない文系の博士課程の学生を想定 ~ と著者は書いていますが ~ 理系の研究者向きでも通りそう / YouTubeで2019年の講義(全20回)が公開 / 親父ギャクを連発 + 学生は笑う時も笑わない時も"
  • 一般化ガンマ分布をStanに実装する

    最近は生存時間解析 (survival analysis; 継続時間解析とも) を使った研究に勤しんでいるのですが,パラメトリックモデルについて勉強していたら,ガンマ分布・ワイブル分布・指数分布を包含する一般化ガンマ分布 (generalized gamma distribution) なる面白い分布が登場したので,これをStanに実装してみました。一般化ガンマ分布は非負の値を返す確率分布で,確率密度関数は以下の式で表されます。 この式ではrateパラメータをλ (逆数の1/λがscaleパラメータ),2つの形状パラメータをg,wと置いています。gはガンマ分布の形状パラメータ,wはワイブル分布の形状パラメータに対応しています。g=1のときワイブル分布,w=1のときガンマ分布,g=w=1のとき指数分布と一致することが特徴です。他のパラメータ化の方法もありますが,他の分布との関係が分かりやすい

    一般化ガンマ分布をStanに実装する
    sh19910711
    sh19910711 2023/01/10
    2020 / "一般化ガンマ分布を使えば,データがガンマ分布・ワイブル分布・指数分布のどれに従うのかが分からない場合でも分布形に当たりを付けることができたりします"
  • あてはまりのよい確率分布を探したい - rmizutaの日記

    はじめに データを眺めていると、ある分布に対してそれが正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがあると思います。 これを確認する方法を探してみたところ、scipy.statsを使えばできそうだったのと、fitterというライブラリもあったので、それらを試してみた結果を記述します。 実験 scipyを使う 実装はnumpy - Fitting empirical distribution to theoretical ones with Scipy (Python)? - Stack Overflowを少しだけ修正したものです。入力に対してscipy.statsに登録されているすべての確率分布のパラメータを最尤推定した結果の平均二乗誤差を比較することで最もあてはまりのよい分布を求めます。 scipyには80

    あてはまりのよい確率分布を探したい - rmizutaの日記
    sh19910711
    sh19910711 2023/01/10
    2020 / "正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがある / scipy.statsを使えばできそう + fitterというライブラリもあった"
  • pystanによる将棋プロ棋士の実力値モデリング【先手と後手での実力差可視化】 - Qiita

    こんな人におすすめ 将棋が好きな人 pystanによる統計モデリングに興味がある人 藤井聡太二冠の実力がすごいのかを知りたい人 この記事でやったこと 棋士ごとに先手、後手で実力値がどの程度違うかを検討 pystanを用いて将棋のプロ棋士の実力値をモデリング 棋士の実力は対局ごとにばらつきのある正規分布としてモデリング 将棋レーティングサイトから対局結果をスクレイピングした結果を使用 はじめに 藤井聡太二冠、強いですよね。テレビで取り上げられたりするなど将棋の露出度がましています。 プロの将棋でよく取り上げられる議題は、後手番は当に不利なのか?というもの。普通に考えたら一手先にさせる分先手が有利そうです。事実としてプロの将棋では先手番の勝率の方がやや高くなっているそうです。(先手番勝率が53%程度) しかし、それは将棋界全体でみた場合のはなし。実際は、棋士ごとに先手、後手どちらが得意かとい

    pystanによる将棋プロ棋士の実力値モデリング【先手と後手での実力差可視化】 - Qiita
    sh19910711
    sh19910711 2023/01/10
    2020 / "先手、後手で実力値がどの程度違うか / 青が先手、オレンジが後手 + 箱ひげ図の箱が4分位点を表しており、この箱が重なってない場合有意差がありそう / 多くの棋士は後手番のほうがやや実力値が低い"
  • オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ

    Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー

    オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
    sh19910711
    sh19910711 2023/01/10
    "自然言語モデルのアプローチを模倣学習に導入することで教師あり学習でも強化学習タスクを当時のSotAオフライン強化学習手法(CQL)に相当する性能で解ける / 対話生成もロボット操作もレトロゲームも全部Transformer"
  • クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年1月号 | DevelopersIO

    データアナリティクス事業部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。 今回は、re:Invent2022が始まった11/28から12/31までのアップデートを紹介します。今年のre:Invent2022 で発表された新サービス・アップデート関連のレポートや検証ブログについて網羅していますので、re:Invent2022の総復習、新サービスの予習にお役立てください。 新サービス Amazon Data Zone(Coming Soon) 組織内に存在するデータを共有・検索・発見するデータカタログサービスです。Amazon Redshift、Amazon Athena、Amazon QuickSightだけでなく、SnowflakeやTableauなどといったサードパーティ製サービスにもAP

    クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年1月号 | DevelopersIO
    sh19910711
    sh19910711 2023/01/10
    "Amazon Data Zone: 組織内に存在するデータを共有・検索・発見するデータカタログ + SnowflakeやTableauなどといったサードパーティ製サービスにもAPIを通じてインテグレーション / Redshift: MERGE、ROLLUP、CUBE、GROUPING SETS のサポート"