[B! LDA] Kshi_Kshiのブックマーク

Kshi_Kshi id:Kshi_Kshi

LDAに関するKshi_Kshiのブックマーク (14)

untitled
Kshi_Kshi 2012/04/03
online LDA

機械学習

LDA
リンク
LDA入門
2. 内容 • NLPで用いられるトピックモデルの代表である LDA(Latent Dirichlet Allocation)について紹介する • 機械学習ライブラリmalletを使って、LDAを使う方法について紹介する
Kshi_Kshi 2012/03/24
LDA

slide

algorithm

機械学習
リンク
最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足
読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え２個３個の tweet には分離してしまうあたりが減点。というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al
Kshi_Kshi 2012/02/01
論文を紹介

Research

LDA

NLP

Paper
リンク
http://blog.yuku-t.com/entry/20110623/1308810518
Kshi_Kshi 2011/12/26
LSI LDAなどの紹介

Tech

機械学習

LDA
リンク
木曜不足
9月24日に「図解即戦力 ChatGPT」という本が出ます。タイトルは ChatGPT ですが、中身は大規模言語モデルの仕組みを解説する本になっています。図解即戦力　ChatGPTのしくみと技術がこれ1冊でしっかりわかる教科書作者:中谷秀洋技術評論社Amazon ChatGPTなどのAIを扱った入門書はすでに数え切れないほど出ており、何番煎じ？　柳の下にもうドジョウ残ってないでしょ？　と突っ込まれたら返す言葉もないですが（苦笑）、同じジャンルの他の本とは異なる特長を備えるように書いたつもりです。大規模言語モデル（生成AI）は情報科学や機械学習、自然言語処理、数学などさまざまな技術や分野が複合した複雑な体系を持ちます。そのことを指して「大規模言語モデルは総合格闘技」とも言われたりします。しかし、実際に『総合格闘技』として扱った入門書、つまり関係するさまざまな技術にわたってAIを解説す
Kshi_Kshi 2011/12/26
id: n_shuyo さんのLDAについての記事.

Research

機械学習

LDA
リンク
http://yattemiyou.net/docs/lda_gibbs.pdf
Kshi_Kshi 2011/12/15
まとめ

Research

LDA
リンク
Latent Dirichlet allocation - Wikipedia
One application of LDA in machine learning - specifically, topic discovery, a subprobl em in natural language processing – is to discover topics in a collection of documents, and then automatically classify any individual document within the collection in terms of how "relevant" it is to each of the discovered topics. A topic is considered to be a set of terms (i.e., individual words or phrases) th
Kshi_Kshi 2011/12/15
ＬDA-wiki

Research

LDA

機械学習
リンク
probabilistic latent semantic analysis - 機械学習の「朱鷺の杜Wiki」
probabilistic latent semantic analysis (pLSA)† 文書と単語など，離散2変数の計数データの生成モデル．文書(document)：\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\)，語(word)：\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\)，潜在変数の話題(topic)：\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis) \[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\] これは，文書と語について対称に定義することもできる \[\Pr[d,w]=\sum_{z\in\mat
Kshi_Kshi 2011/12/15
LDAの元になったアルゴリズム

Research

LDA

機械学習
リンク
Gibbsサンプラー - 機械学習の「朱鷺の杜Wiki」
Gibbsサンプラー (Gibbs sampler)† 一度に一つの確率変数だけを更新するMCMCの一つであり，MCMC の中でも最もよく使われるものであろう．目的の分布から決まる条件付分布に従って乱数を発生させる．いわゆる rejection rate は 0 だが，確率変数の値がとどまる確率は 0 ではないので，Metropolis-Hastings法より必ずよく動くというわけではない． -- あかほ ↑
Kshi_Kshi 2011/12/15
ギブスサンプリング

Research

LDA

機械学習
リンク
[Gibbs Sampling（ギブスサンプリング）] by かうぱーと
いよいよGibbs Samplingについてのメモです。教科書などでは「ギブスサンプラー」と書かれている方が多いのですが、私はGibbs Samplingで習ったのでここではこれで通します。【Gibbs Samplingの手順】 #include <stdlib.h> #include <stdio.h> #include <math.h> #include "randlib.h" int main( void ) { // 母集団の平均値 double trueMean = 5.0; // 母集団の分散 double trueVar = 1.0; // 観測値数 int dataNum = 1000; // 観測値格納域 double y[dataNum]; // 観測値の平均 double xbar = 0.0; // 観測値の分散 double xvar = 0.0; // 事
Kshi_Kshi 2011/12/15
ギブスサンプリング

Research

LDA

機械学習
リンク
多変量正規分布をギブスサンプリングで - 木曜不足
引き続き「パターン認識と機械学習」(PRML) 11章予習中。 Gibbs サンプリング、これはもう試してみるしか。 syou6162 さんが試してはるの( http://d.hatena.ne.jp/syou6162/20090115/1231965900 )をなぞるだけでもいいんだけど、せっかくだから多次元一般化しよう。 r_mul_norm1 <- function(x, mu, Sig) { idx <- 1:length(mu); for(a in idx) { b <- idx[idx!=a]; # b = [1,D] - a s <- Sig[b,a] %*% solve(Sig[b,b]); # Σ_ab Σ_bb ^ -1 # (PRML 2.81) μ_a|b = μ_a + Σ_ab Σ_bb ^ -1 (x_b - μ_b) mu_a_b <- mu[a] + s
Kshi_Kshi 2011/12/15
ギブスサンプリング

Research

LDA

機械学習
リンク
PythonでLDAを実装してみる
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か（tf-idfみたいなもん）。基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。ドキュメントの語数N個になるまで以下を繰り返す。トピックznが多項分布Mult(θ)に基づいて選ばれる。単語wnが確率p(wn|zn,β)で選ばれる。ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
Kshi_Kshi 2011/12/15
LDAを実装してみた

Research

LDA

機械学習

Python
リンク
Latent Dirichlet Allocations の Python 実装 - 木曜不足
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
Kshi_Kshi 2011/12/15
LDAを実装してみた

Research

LDA

機械学習

Python
リンク
ディリクレ分布まとめ - あらびき日記
この記事は abicky.net のディリクレ分布まとめに移行しました
Kshi_Kshi 2011/12/14
ディリクレ分布

Research

LDA

統計
リンク
1