[B! LDA] yosshi71jpのブックマーク

yosshi71jp id:yosshi71jp

LDAに関するyosshi71jpのブックマーク (12)

+/-
RでLDAの一例 ver1.0 2014-05-07 m.ooki 0. 概要 LDAが割とすぐにRでできるらしいので、やってみた。参考：参考1：Rでトピック分析参考2：トピックモデル参考3：ldaパッケージ 1. パッケージ読み込み opts_chunk$set(warning = F, comment = "", fig.width = 11, fig.height = 6) library(lda) library(reshape2) library(ggplot2) 2. ldaパッケージで解析できるデータの例 # ベクトル型で以下のように格納できるデータならOK。csvファイルなら結合していけばOK。 sentence <- c("I am the very model of a modern major general", "I have a major headach
yosshi71jp 2015/04/10
LDA

R
リンク
確率的潜在変数モデル最前線
introductino to persistent homology and topological data analysis
yosshi71jp 2012/03/04
LDA

NLP

ML

機械学習
リンク
http://blog.yuku-t.com/entry/20110623/1308810518
yosshi71jp 2011/06/23
LSI

LDA

numpy
リンク
どうしてサンプリングで推論できるの？ - 木曜不足
TokyoNLP #5 で「はじめてのトピックモデル」的なのをやろうと思ってたんだけど、地震とかとかで１ヶ月延びている間に「はじめての生成文法」にすり替わってた。あれー？で、次回はその後編の予定だし、その次に TokyoNLP 的なところでなんか話す機会をもらえる頃にはまた別のネタができてるだろうし、うーん、「はじめてのトピックモデル」はお蔵入りかな。というわけで、なんか最近 LDA のことをあれこれ書いてるのは、そのへんの蔵出し。で、そんなネタの内、昨日の記事でうっかり書き忘れてた一口メモ。どうして LDA で Collapsed Gibbs sampling すれば、つまり乱数で適当に選ぶことを繰り返すだけで推論できてしまうんだろう？わかっている人には簡単で当たり前の話だが、正直恥ずかしながら最初はどうしてそうなるのかさっぱりわからなかったｗ普通のベイジアンの枠組みでは、事
yosshi71jp 2011/05/27
LDA

変分ベイズ
リンク
LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足
Latent Dirichlet Allocations(LDA) の実装について - 木曜不足にも出てくるこの式を導出してみる。この式は LDA の Collapsed Gibbs sampling で使う全条件付分布(full conditional)。もし普通のギブスサンプリングだったら、観測されていない全ての確率変数、つまり Z だけではなくθやφについても同様に全条件付分布を構成して、そこからサンプリングを繰り返すことが必要になる。*1 そこで、θとφについては積分消去してしまうことで、Z だけをサンプリングすればよいようにしたのが Collapsed Gibbs sampling。"collapsed" は積分消去して「つぶした」ということと、素の Gibbs sampling から「崩した」ということと、両方かかっているんだろうか？導出に必要な道具は次の2つ。ガン
yosshi71jp 2011/05/26
LDA
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
yosshi71jp 2011/05/15
NMF

LDA

機械学習
リンク
ノンパラベイズのあれこれ - yasuhisa's blog
自分用メモ。超基礎的なこと。書くのが躊躇されるレベルだが、書かないと忘れる。全部は書かない、自分が必要なところだけ。ディリクレ過程(Dirichlet Process; DP)を使ったようなモデルを自分で実装する必要が出てきた。今までは必要でなければ必ずしもDP使う必要ないじゃんという感じでいたが、今回はDPが本質的に必要な場面のような気がするので、頑張る。基本的には上田さん、山田さんの資料を見ながら話を進めていく。ノンパラメトリックベイズモデルやりたいこと(というか初期ステップ)。超単純。コーパス全体を一つの文書と見なす&bag of wordsの状態で単語をクラスタリングする(クラスタ数は∞)。LDAの拡張っぽくdocumentごとにtopic propotionが...ということをやろうかと思っていたのだが、それをちゃんとやろうとするとHierarchical Dirichle
yosshi71jp 2011/05/14
機械学習

自然言語処理

LDA
リンク
CiteSeerX
About CiteSeerX is an evolving scientific literature digital library and search engine. @2007-2024 The Pennsylvania State University
yosshi71jp 2011/05/14
LDA
リンク
http://blog.yuku-t.com/entry/20110508/1304860257
yosshi71jp 2011/05/09
LDA

ディリクレ分布
リンク
PythonでLDAを実装してみる
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か（tf-idfみたいなもん）。基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。ドキュメントの語数N個になるまで以下を繰り返す。トピックznが多項分布Mult(θ)に基づいて選ばれる。単語wnが確率p(wn|zn,β)で選ばれる。ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
yosshi71jp 2011/05/07
機械学習

LDA

python
リンク
Latent Dirichlet Allocations の Python 実装 - 木曜不足
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
yosshi71jp 2011/04/21
python

NLP

機械学習

LDA
リンク
論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介 - yasuhisa's blog
100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル形態素解析、分かち書きノンパラベイズその他クラスタリング最適化教師なし学習今年の1月1日から始めた論文100本ノックですが、年末ギリギリだと書けるか分からなくなりそうなので、そろそろ振り替えります。3月くらいまでは読んだ論文の一覧を2010/12/31の日記のところに書いてたんですが、研究室localな勉強会で紹介された論文は(OKが出ないと)外で書けないという都合があったので削除しましたが、プライベートはてなグループのほうで続いています。12/7現在で76本だそうです。本数のペースは以下のグラフで(実は)公開されています。 2月から3月がほとんど止まってますが、論文読むというよりディリクレ過程の勉強とか
yosshi71jp 2010/12/07
研究

論文

LDA
リンク
1