タグ

ブックマーク / qiita.com/Gotoubun_taiwan (11)

  • 次元数とクラスター数を自動選定するベイズ投票解析モデル - Qiita

    はじめに イデオロギーは古くから政治学の中心になっているのは、もはやいうまでもない。 国内政治において、右派と左派の枠組みは政治学者だけでなく、有権者や政治家同士、投資家などが政治情勢を判断する重要な視座である。 国際政治においても、冷戦期の米ソ対立は、イデオロギー抜きでは説明できない部分が多い。現代でも、アメリカをはじめとする西側諸国と中国の対立は、やはりイデオロギーで解釈した方が妥当である。 このように、投票データから投票者のイデオロギーを推定するのは、政治学において重要なタスクである。 では、我々はこのイデオロギーという概念をいかにデータを用いて定量的に評価するのか。政治学では、心理学などでも活用される項目反応理論を使う研究が多い(Clinton, Jackman and Rivers 2004)。詳細は後述するが、項目反応理論では、法案などの解答項目と、国会議員などの回答者にそれぞ

    次元数とクラスター数を自動選定するベイズ投票解析モデル - Qiita
    Aobei
    Aobei 2024/06/21
  • 複雑怪奇な関数も学習できるディリクレ過程回帰モデルを紹介します - Qiita

    はじめに こんにちは、事業会社で働いているデータサイエンティストです。 記事では、ディリクレ過程回帰モデルという、柔軟に独立変数(共変量、特徴量)と従属変数(結果変数)の関係性をモデリングする手法を紹介します。詳細はHannah, Blei and Powell(2011)を参照してください。 さて、ディリクレ過程回帰はノンパラメトリックベイズの一種なんですが、柔軟に独立変数と従属変数をモデリングする手法でいうとガウス過程で良いのでは?という疑問もあるかもしれません。 勉強不足の状態での個人的な意見になりますが、ガウス過程には二つの大きな課題があります: 独立変数と従属変数の関係を記憶する巨大な共分散行列の逆行列を求める必要があり、そもそもあまりスケールしません 曲線の当てはめに置き換えられるタスク以外で活用しにくい 一つ目の問題はEC2で強力なインスタンスを立ててそこで計算すればある程

    複雑怪奇な関数も学習できるディリクレ過程回帰モデルを紹介します - Qiita
  • 誤差率0.5%以下(一部)のベイズ時系列モデルを紹介します - Qiita

    はじめに こんにちは、事業会社で働いているデータサイエンティストです。 記事では、検証データに対して一部誤差率0.5%以下という高い精度を達成した多変量時系列モデル、ベイズファクターモデルを紹介します。 ファクターモデルとは ファフターモデルは機械学習の世界で有名なembeddingモデル系と発想が極めて似ています。 まずembeddingモデルの代表のword2vecの復習から入りましょう。 word2vecの場合、対象の単語の埋め込み表現と周囲の文脈の単語の埋め込み表現の内積で対象の単語の出現を予測します。要するにこんな感じです もちろん、活性化関数とか細かい内容もありますが、省略させてください。 ファフターモデルの場合、時系列の変数に埋め込み表現と時間の埋め込み表現がそれぞれ設定され、例えば鉄道駅の利用者数の時系列分析をする際、新宿駅の2024年4月1日の利用者数は $$駅埋め込み

    誤差率0.5%以下(一部)のベイズ時系列モデルを紹介します - Qiita
  • word2vecを階層ベイズ化したらどうなるかを可視化してみた - Qiita

    はじめに こんにちは、事業会社で働いているデータサイエンティストです。 階層ベイズは柔軟にモデルにドメイン知識を教える方法だと以前の記事で説明しました。 では、テキストアズデータ(自然言語処理)で有名なword2vec(Mikolov et al. 2013とRudolph et al. 2016)に階層ベイズの構造を入れたらどうなるか?というのを今回の記事で可視化して比較します! データ説明 今回の記事では、下記の消費者購買情報データセットを利用します。 このように、ユーザーが何を買ったのかを記録したデータです: > purchase_data <- readr::read_csv("events.csv") Rows: 885129 Columns: 9 ── Column specification ──────────────────────────────────────────

    word2vecを階層ベイズ化したらどうなるかを可視化してみた - Qiita
  • Stanでちゃんと動くトピックモデルを考案してみた - Qiita

    はじめに 皆さんの中には、私のように、StanでLDAをはじめとするトピックモデルを実装しようとしたがうまくいかなかった経験をした方もいるかもしれない。 記事では、LDAやSTMがStanでうまくいかない理由を考察しながら、私が新しく考案したトピックモデルをStanで変分推論して性能を紹介する。 Stanの変分推論がうまくLDA系の手法を扱えない理由と解決策 検証時のデータは残っていないため、定性的な紹介にはなってしまうが、Stanでトピックモデル系の手法を回すとき、大体確率的勾配上昇法でiterationが300回のところで止まり、あまり解釈性のないトピックが事後分布としてサンプリングされる。 Srivastava and Sutton(2017)の論文ではADVIというStanが利用する自動微分変分推論は質の良いトピックを抽出できない現象を報告し、ディリクレ分布がlocation s

    Stanでちゃんと動くトピックモデルを考案してみた - Qiita
  • 回帰モデルをいっぱい作った方がいいかな?そんな時は有限混合モデルに任せて! - Qiita

    はじめに 突然だが、こんなデータを考えよう。 これは二つの線形モデルを作ればうまく表現できそうだが、無理やり同じ線形モデルで表現しようとすると、おそらく傾きがゼロのモデルが推定される。 こんな時な、もちろん手作業で左下から右上のところのデータを切り出してモデル1を作り、左上から右下のところのデータを切り出してモデル2を作る方法があるが、どうしても恣意性が入ってしまう。 また、二次元の時は目視で観測値をグループ分けすることもできるが、データの次元がこれ以上増えると、可視化して手作業で対処するのは不可能と言っても過言ではない。 そこで、記事では、Imai and Tingley(2012)の論文を参考に、ベイズ有限混合モデルを使って二つのモデルを同時に推定する方法を紹介する。 データ生成過程 ここでは、上記のデータの生成方法を紹介する set.seed(12345) df <- 100000

    回帰モデルをいっぱい作った方がいいかな?そんな時は有限混合モデルに任せて! - Qiita
    Aobei
    Aobei 2023/12/11
  • ベイズword2vecの進化版をStanで実装してみた - Qiita

    のようなユーザーの移動データの中のXXの予測にも使える。 もちろん、テキストデータ用に開発されたモデルを他の種類のデータに適用する際は、非言語データの前処理の工夫の必要性や言語に特化した学習済みモデルを安易に利用しないなどの注意点がある。 記事が利用するデータも言語データではなく、下記のサイトが提供するテレビ番組の閲覧状況のデータである(Turrin, Condorelli, Cremonesi and Pagano 2014)。 指数族embeddingの簡単な紹介 指数族embeddingとは、Rudolph et al.(2016)が提案した、word2vecをより一般化して、言語データ以外の種類のデータにも拡張した手法である。 指数族embeddingの概念を簡単に説明すると、ある位置にどんなトークンが現れるかは、その周辺に位置するトークンによって決まるということである。また、ト

    ベイズword2vecの進化版をStanで実装してみた - Qiita
  • ディリクレ過程とガウス過程で民主主義の発展を分類してみた - Qiita

    はじめに 時系列データを分類するのは、あらゆる意思決定で価値を発揮する。例えばビジネスの場合、トレンドが似ている地域を識別し、同じグループの地域Aを施策群にして、地域Bを統制群にすれば、施策前に両地域の推移が似ているので、施策後大きな乖離が見られたら施策の効果とみなせ、信憑性の高いTVCMやOOH広告のABテストを実行できる。個人の意思決定の場合(記事の目的は投資戦略の紹介ではないことを強調したい)、株の推移の時系列をグループ化できれば、資産をいい感じに分散させ、手元の株の株価が同時に下落するリスクを減らすことができるかもしれない。うるさいかもしれないが、記事の目的は投資戦略の紹介ではないことをもう一回強調する。また、政治学においても、例えば各国の民主主義の発展を分類して可視化すれば、理論の発展や政策提言の質の向上に寄与することも期待される。 ただ、問題として、一般的な分類手法だと、ま

    ディリクレ過程とガウス過程で民主主義の発展を分類してみた - Qiita
    Aobei
    Aobei 2023/05/08
  • ベイズ線形回帰の事前分布を色々比較してみた - Qiita

    はじめに ベイズモデルは柔軟性が高く、伝統的な線形モデルや一般化線形モデルの他に、筆者がこの記事のように、 様々なモデル・分布を自由自在に組み合わせることによって、生データに隠された構造を可視化できる。 ただ、ベイズモデルを利用する際に、パラメータの事前分布を指定する必要があり、しかも事前分布のチョイス次第でモデルの挙動が大きく変わることがあるため、初心者にとっては少々難易度が高いと思われる。 記事は単純な線形回帰モデルを事例に、事前分布を正規分布、ラプラス分布、ガンマラッソ(Taddy 2017)に変えることでパラメータ(係数)の挙動がどうなるかを実際に可視化して確認する。 モデル説明 ここではまずモデルの説明から入る。 一つ目は切片(β)に正規分布を設定するモデル: \sigma \sim Gamma(1,1) \\ \rho \sim Gamma(1, 1) \\ \beta \s

    ベイズ線形回帰の事前分布を色々比較してみた - Qiita
  • 計量政治学でユーザーの行動パターンを可視化せよ:NLPを超えた構造トピックモデルの活用 - Qiita

    はじめに トピックモデルを抽象的に考えると、アイテムを分類するモデルであり、そのアイテムが単語であろうとユーザーが見た映画であろうと質的な違いはない。トピックモデルと言ったら、普通の人はまず有名なLDA(Blei et al. 2003)を思いつくが、実は政治学では、このLDAの進化版にあたる構造トピックモデル(STM, structural topic model)が提案された。記事ではまず、LDAとSTMの違いを紹介した上で、ユーザー行動の可視化(グルーピング、トピック分け)という、トピックモデルの元の目的ではない場面での活用法を説明する。 モデル説明 LDAとSTMの違いはどこなのかというと、豊富なメタデータをモデルに入れることができるところが一番わかりやすい。STMでは、prevalence共変量(機械学習界隈の人にとって特徴量という表現の方がピンとくるかもしれない)とcont

    計量政治学でユーザーの行動パターンを可視化せよ:NLPを超えた構造トピックモデルの活用 - Qiita
  • 計量経済学 x NLPでユーザーの声を可視化せよ!多項逆回帰とAmazonのレビューデータを事例に - Qiita

    はじめに レビュー数の高さの識別に役立つ単語を洗い出せば、ユーザーがサイトのどんな商品特徴に満足していて、もしくは逆に商品特徴で不満を感じているのかを可視化・特定することができ、キャンペーンなどのマーケティング施策立案や、出品者へのアドバイス提供(「XXXだと消費者に好かれないですよ!」など)など、ビジネスインパクトのあるアクションに繋がる。 もちろん、ある変数に寄与する単語の可視化・特定する手法は、ビジネスの世界だけでなく、私の専門である政治学・国際政治学や経済学などの社会科学でも、例えばアメリカの民主党と共和党の言葉のチョイスの違いの分析や (オープンアクセスではない) 金融指標の変化の予測に寄与する単語の洗い出し (オープンアクセスではない) などでも使える。 そこで、記事では、こちらの記事を参考に、 https://qiita.com/10shimizu10/items/1f44

    計量経済学 x NLPでユーザーの声を可視化せよ!多項逆回帰とAmazonのレビューデータを事例に - Qiita
    Aobei
    Aobei 2022/12/22
  • 1