並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 170件

新着順 人気順

LDAの検索結果1 - 40 件 / 170件

  • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常

    1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ

      B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常
    • LDA入門

      2. 内容 • NLPで用いられるトピックモデルの代表である LDA(Latent Dirichlet Allocation)について紹介 する • 機械学習ライブラリmalletを使って、LDAを使 う方法について紹介する

        LDA入門
      • 【機械学習】Yahoo Newsの記事をMLlibのトピックモデル(LDA)でクラスタリングする。 - Qiita

        Sparkシリーズ第3弾の記事です。MLlibのLDAを使ってYahoo Newsの記事をトピックモデル(LDA:Latent Dirichlet allocation)でクラスタリングしてみます。 第一弾 【機械学習】iPython NotebookでSparkを起動させてMLlibを試す http://qiita.com/kenmatsu4/items/00ad151e857d546a97c3 第二弾 【機械学習】Spark MLlibをPythonで動かしてレコメンデーションしてみる http://qiita.com/kenmatsu4/items/42fa2f17865f7914688d 0. 環境 OS: Mac OSX Yosemite 10.10.3 Spark: spark-1.5.0-bin-hadoop2.6 Python: 2.7.10 |Anaconda 2.2.0

          【機械学習】Yahoo Newsの記事をMLlibのトピックモデル(LDA)でクラスタリングする。 - Qiita
        • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

          株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

          • 教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ

            ※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す

              教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
            • Amazon.co.jp: アイリスオーヤマ LED電球 口金直径26mm 20W形相当 電球色 下方向タイプ 人感センサー エコハイルクス LDA6LHS: ホーム&キッチン

              商品サイズ(約):直径6×高さ12.3cm 重量(約):150g 材質:ポリカーボネート、アルミ、PBT、ポリエチレン 電源:100V(50HZ/60HZ共通) 定格消費電力:6.0W 口金直径26mm 全光束:約250lm 定格寿命:40000h

                Amazon.co.jp: アイリスオーヤマ LED電球 口金直径26mm 20W形相当 電球色 下方向タイプ 人感センサー エコハイルクス LDA6LHS: ホーム&キッチン
              • LDAとそれでニュース記事レコメンドを作った。 - tdualのブログ

                筆不精なのでこのブログも放置気味だったのですが、まあ流石にそろそろ少しずつでも今まで貯めた込んだものを書き残した方が良い気がしてきた。 なので、これからなんか書いていきます。 最初はDeep Learningの記事にしようとも思ったけど、社内勉強会でLDAをまとめてたのを思い出したのでまずはこれから書こうと思います。 注意書き 理論 1.LDAの前に「トピックモデル」とは 2.LDAとは*2 3.LDAで使う確率分布 カテゴリカル分布(マルチヌーイ分布) Dirichlet(ディリクレ)分布 4.確率的生成モデル 5.グラフィカルモデル表現 6.LDAの解釈 7.経験ベイズ(Empirical Bayes) 8.変分ベイズ法(Variational Bayesian methods) 9.平均場近似(Mean field approximation) 10.変分下限とKullback-Le

                  LDAとそれでニュース記事レコメンドを作った。 - tdualのブログ
                • Latent Dirichlet Allocations(LDA) の実装について - 木曜不足

                  昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。 LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。 ただし [Blei+ 2003] で "LDA" としているのはトピック-単語分布がただの多項分布(事前分布無し)のもの。"LDA" としてよく目にするトピック-単語多項分布にディリクレ事前分布が入ったものは "Smoothed LDA" として記載されている(確かにβでスムージングしているのと等価)。 今回実装した LDA も後者の "Smoothed LDA"。 その LDA はこんな感じ。αとβはハイパーパラメータだから、チビ黒丸で書いて欲しいんだけどね。 (図は Wikipedia-en の LD

                    Latent Dirichlet Allocations(LDA) の実装について - 木曜不足
                  • [機械学習] LDAのコードを書いてみた - tsubosakaの日記

                    昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。 Token.java package lda; public class Token { public int docId; public int wordId; public Token(int d , int w){ docId = d; wordId = w; } } LDA.java package lda; import java.util.*; public class LDA { int D; // number of document int K; // number of topic int

                      [機械学習] LDAのコードを書いてみた - tsubosakaの日記
                    • PythonでLDAを実装してみる

                      Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か(tf-idfみたいなもん)。 基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。 論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。 ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。 ドキュメントの語数N個になるまで以下を繰り返す。 トピックznが多項分布Mult(θ)に基づいて選ばれる。 単語wnが確率p(wn|zn,β)で選ばれる。 ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=

                      • word2vec, LDA, and introducing a new hybrid algorithm: lda2vec

                        This document summarizes the lda2vec model, which combines aspects of word2vec and LDA. Word2vec learns word embeddings based on local context, while LDA learns document-level topic mixtures. Lda2vec models words based on both their local context and global document topic mixtures to leverage both approaches. It represents documents as mixtures over sparse topic vectors similar to LDA to maintain

                          word2vec, LDA, and introducing a new hybrid algorithm: lda2vec
                        • GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference

                          GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation GibbsLDA++ is a C/C++ implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling technique for parameter estimation and inference. It is very fast and is designed to analyze hidden/latent topic structures of large-scale datasets including large collections of text/Web documents. LDA was first introduced by David Blei e

                          • 「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは

                            「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは:Pythonで始める機械学習入門(9)(1/2 ページ) 最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。今回は機械学習を使った自然言語分析のライブラリ「Gensim」について解説します。 プログラミング言語「Python」は機械学習の分野で広く使われており、最近の機械学習/Deep Learningの流行により使う人が増えているかと思います。一方で、「機械学習に興味を持ったので自分でも試してみたいけど、どこから手を付けていいのか」という話もよく聞きます。本連載「Pythonで始める機械学習入門」では、そのような人をターゲットに、Pytho

                              「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは
                            • トピックモデル(LDA)で初学者に分かりづらいポイントについての解説 - Taste of Tech Topics

                              こんにちは。 信号処理で使っていた数学の知識を生かして、 機械学習関連の仕事をしている2年目の@maron8676です。 こちらは機械学習と数学 Advent Calendarの11日目の記事となります。 qiita.com トピックモデルの学習で初学者に分かりづらいポイントについての解説をしていきます。 機械学習における数学の重要性 機械学習を利用してアプリケーションを作る際に、数学の知識は重要です。 機械学習の便利なライブラリは多くリリースされていますが、適切に使用するにはパラメータチューニングが必要だったり、 最新の手法を動かしたい場合は自分で数式を読んで理解し、開発しないといけません。 というわけなので、数学は大事です。機械学習でアプリケーションを作るみなさん数学を勉強しましょう。 トピックモデル トピックモデルとは何か トピックモデルは潜在的意味を推定するためのモデルです。 トピ

                                トピックモデル(LDA)で初学者に分かりづらいポイントについての解説 - Taste of Tech Topics
                              • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 - SmartNews Engineering Blog

                                ハイパーパラメータは自由に設定する値です。 確率分布 $ \theta_{ik} $ などをまとめて$ {bf \Theta} $などと書くと、 ハイパーパラメータを$ {\bf \alpha}$, ${\bf \beta}$と設定したとき、 トピック混合率が$ {\bf \Theta} $で、単語生成率が$ {\bf \Phi} $で、各単語の背景トピックが$ {\bf Z} $であるような文章群$ {\bf W} $が得られる確率$P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta)$は以下のような図(グラフィカルモデル)によって表現され、 実体は、 $$ P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta) = \left( \frac{prod_{k}\G

                                  Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 - SmartNews Engineering Blog
                                • [LED電球、どれを買う?] NEC「LIFELED'S(ライフレッズ) 全周配光タイプ LDA5L-G」 ~配光角330度で白熱電球と遜色ない光の広がり

                                  • LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足

                                    Latent Dirichlet Allocations(LDA) の実装について - 木曜不足 にも出てくるこの式 を導出してみる。 この式は LDA の Collapsed Gibbs sampling で使う全条件付分布(full conditional)。 もし普通のギブスサンプリングだったら、観測されていない全ての確率変数、つまり Z だけではなくθやφについても同様に全条件付分布を構成して、そこからサンプリングを繰り返すことが必要になる。*1 そこで、θとφについては積分消去してしまうことで、Z だけをサンプリングすればよいようにしたのが Collapsed Gibbs sampling。"collapsed" は積分消去して「つぶした」ということと、素の Gibbs sampling から「崩した」ということと、両方かかっているんだろうか? 導出に必要な道具は次の2つ。 ガン

                                      LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足
                                    • Latent Dirichlet Allocation (LDA) ゆるふわ入門

                                      NLP 2013 の時期ですね。たぶんギリギリ NLPer の端くれの端くれの身としては参加したい気持ちも山々なのですが、いろいろあって今年は参加しないことにしました。 NLP 2014 は参加しようと思うので来年はかまってやってください。 ときに、私が NLP を勉強し始めた頃はかな漢字変換や音声認識で文脈を考慮して推定したいなぁみたいなことを考えていたので言語モデル、中でもトピックモデルに興味を持っていました。 っで、トピックモデルと言ったら Latent Dirichlet Allocation (LDA) じゃないですか?Blei 先生の論文読むじゃないですか?意味不明じゃないですか!? そもそもディリクレ分布って何?な人だったので・・・。ディリクレ分布まとめ - あらびき日記 とかその時の痕跡ですね。 PRML の上巻を読んでちょっとベイズな考え方に慣れて LDA も理解できてき

                                        Latent Dirichlet Allocation (LDA) ゆるふわ入門
                                      • 【Python実装】LDAのトピックをParticle Filter(SMC)で推論 - ガシンラーニング

                                        今回は、LDA(Latent Dirichlet Allocation)の逐次モンテカルロ法(Sequential Monte Calro)であるパーティクルフィルター(Particle Filter)によるトピック推論をPythonで実装しました。 コードは全てgithubに載せています。githubはこちら Twitterフォローよろしくお願いいたします。twitterはこちら 以下の書籍3.5章とこの書籍が参照している元論文を参考にしました。 Online Inference of Topics with Latent Dirichlet Allocation [Canini 2009]こちら こちらの書籍はトピックモデルに限らずベイズモデリング推論の良書です。 トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ) 作者: 佐藤一誠,奥村学 出版社/メーカー: コロナ社

                                          【Python実装】LDAのトピックをParticle Filter(SMC)で推論 - ガシンラーニング
                                        • [LED電球、どれを買う?] 日立「小形電球形(E17口金)広配光タイプ LDA7L-G-E17/S」 ~E17口金用の大本命。光が広がり設置場所を選ばず

                                          • [LED電球、どれを買う?] パナソニック「EVERLEDS 11.0W 全方向タイプ LDA11L-G」 ~迷ったらコレ! 60W形白熱電球と遜色ない明るさと広がり

                                            • 第二回機械学習アルゴリズム実装会 - LDA

                                              2. 自己紹介 • 礒部正幸(いそべ まさゆき) • 職業: ソフトウェアエンジニア • 現在: アドファイブ(株) 代表 http://www.adfive.net – 今のところ代表1名の会社です – アドテク、データドリブンマーケティング事業 • ソフトウェアコンサルティング及び受託開発 • 理系大学院卒 • インターネット活動 – TwitterID: @chiral – (ブログ:アドファイブ日記) http://d.hatena.ne.jp/isobe1978/ • 最近実装したアルゴリズム – カルマンフィルタ、粒子フィルタ、Restricted Boltzmann Machine、ベイズロジスティック回帰、uplift modeling, SCW, LDA 3. Topic Modelingとは • 主に文書データを想定したクラスタリング – クラスタリング = 教師なし分

                                                第二回機械学習アルゴリズム実装会 - LDA
                                              • [LED電球、どれを買う?] パナソニック「EVERLEDS(エバーレッズ) LDA9L-H 650ルーメン」 ~浴室にも全体照明にも。明るく汎用性の高いLED電球

                                                • tfidf、LSI、LDAの違いについて調べてみた

                                                  tfidf、LSI、LDAの意味、違いを調べるために、それぞれの形式のコーパスの中身を調べてみた。そのメモ。 前回のおさらい 前回の記事では、もっとも基本的なコーパスの中身を確認してみました。その結果、「コーパスとは、文章集合をベクトル空間に変換したもの」いうことが分かりました。 今回は、基本的なコーパス以外の複数のコーパス、特に、tfidf、LSI、LDAで用いるコーパスについて、基本的なコーパスとは何が違うのかを調べます。その結果分かったコーパスの違いから、各モデルの違いを理解することを目標とします。 gensimに実装されたtfidfのコーパスの中身を見てみました 今回は、「Topics and Transformations」を参考に進めていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %

                                                  • トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)

                                                    このシリーズのメインともいうべきLDA([Blei+ 2003])を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。 グラフィカルモデルは以下になります(左: LDA, 右(参考): 前回のUM)。   見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような

                                                      トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)
                                                    • [LED電球、どれを買う?] 東芝「E-CORE 一般電球形 7.7W LDA8L-G」 ~東芝の“光が広がる”LED電球は、明るくてムラのない均等な光

                                                      • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA番外編〜 - 下町データサイエンティストの日常

                                                        1. 本Part概要 こんにちは。pira_ninoです。 先日、30周年ライブであるPleasureツアー@横浜に行って「やっぱB'z最高」な最近です。 ライブについて語り出すと長いので、本編へ。 前回のLDA編では皆様のおかげで週間11位というブログ初心者には恐れ多い反響を頂き、本当にびっくりしております。。。ありがとうございます。。。 pira-nino.hatenablog.com blog.hatenablog.com そんなちょっとバズったブログに関してでしたが、LDA編のトピック別のWord Cloudの図が小さいということはずっと思っており、加えてブックマークコメントにも小さいと書いていらっしゃる方を見かけまして、「それな」と思い本Partで一気に20トピックの図を貼ります。 現在、Word 2 Vec 編を絶賛執筆中なのですが気分転換で本Partを書きました。箸休め程度の

                                                          B'zの歌詞をPythonと機械学習で分析してみた 〜LDA番外編〜 - 下町データサイエンティストの日常
                                                        • Infer.NETを使ってLDAを実装してみた

                                                          2. Probabilistic Programming • 確率モデルをプログラムの形で書く • パラメータの推論の部分のコードはユーザが 書かずに自動で推論が行える • Ex: – BUGS (DSL) – Hierarchical Bayes Compiler (DSL) – Factorie (Scala) – Infer.NET (C#) 第5回自然言語処理勉強会 2

                                                            Infer.NETを使ってLDAを実装してみた
                                                          • 階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較 - 木曜不足

                                                            Hierechical Dirichlet Process(HDP, 階層ディリクレ過程) を実装するのに必要な式を導出しつつ、実装してみるお話。 参照するのはこちらの論文。 [Y.W.Teh, M.I.Jordan, M.J.Beal & D.M.Blei. JASA2006] Hierarchical Dirichlet Processes http://www.gatsby.ucl.ac.uk/~ywteh/research/npbayes/jasa2006.pdf しかし全部拾っていくのは大変なので、ちょびっとずつ小分けに、かつ他の方がブログとかで書いていてくれそうなところ(ディリクレ過程とか、中華料理店フランチャイズとか)はまるっと飛ばして、実装に必要な定式化&導出にしぼってまとめていくつもり。*1 とりあえず syou6162 さんや nokuno さんのこの辺の記事とかご参考

                                                              階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較 - 木曜不足
                                                            • [LED電球、どれを買う?] パナソニック「EVERLEDS クリア電球タイプ LDA4LC」 ~これがLED!? 見た目や雰囲気までこだわった“クリア電球”

                                                              • [LED電球、どれを買う?] 東芝「E-CORE 一般電球形9.4W LDA9L」 ~60W型白熱電球との交換に適した、明るいLED電球

                                                                • LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita

                                                                  はじめに この記事では pythonのライブラリの gensimの中のLDAのモデルを使ってフォローされたQiitaタグの関係からユーザーの嗜好を考えてみようということをやってみます。 トピックモデルやgensimを実際にデータと共に使ってみることでどんなものか見てみることを目的とします。これを入り口にしてトピックモデルを実際に使ってみたり、詳しく勉強をはじめるきっかけとなれば幸いです。 LDAのモデルの内部がどのように実装しているかにはあまりふれません。「どういうことが出来るのか」にフォーカスします。また、データの取得(スクレイピング他)も触れます。 データ取得(スクレイピング、API) データの成形 モデルへの適用 詳しく説明している記事もありましたのでこの記事を読まれた後に物足りなさを感じた方は読んで見るとよいかと思います。 数式をなるべく使わずにトピックモデルの解説にチャレンジ 図

                                                                    LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita
                                                                  • 【LED電球、どれを買う?】東芝「E-CORE ミニクリプトン形 5.2W LDA5L-G-E17/S」

                                                                      【LED電球、どれを買う?】東芝「E-CORE ミニクリプトン形 5.2W LDA5L-G-E17/S」
                                                                    • 失敗しないLED電球の選び方(1) NECライティング“LIFELED'S”「LDA8L」

                                                                      震災による影響で節電が叫ばれている中、従来の白熱灯よりも大幅に節電効果が見込めるLED電球の必要性がますます高まっている。家庭で使用される電気代の中でも照明器具の割合は上位にランクインしており、その割合は16%以上ともいわれている。そこで今回の特集では、LED電球の最新モデルについて、各モデルの特長をリポートしていこう。 LED電球にはさまざまな種類があるが、今回は白熱灯からリプレースする製品として人気の高い電球色タイプで、一般的なE26口金タイプを紹介する。最近はLED電球の低価格化もかなり進んできているが、まだまだ白熱灯や電球型蛍光灯よりは高価なので、購入にあたっては価格を気にする方も多いと思う。そこで今回の特集では、性能や品質だけでなく、コストとの兼ね合いなども考えながら紹介していきたい。 2本セットも用意された低価格モデル さて、今回の特集では、まず手ごろな価格の消費電力7ワット前

                                                                        失敗しないLED電球の選び方(1) NECライティング“LIFELED'S”「LDA8L」
                                                                      • Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei

                                                                        あくまで調べ中。なんだけど自分用にメモしておく。 大雑把に言うと、LDAは α=>[θ=>[z=>w]]<=β α,β: パラメータ θ,z : 潜在変数 w : 観測データという形をしていて、観測データの尤度を計算するには潜在変数θおよびzについて周辺化しないといけない。ところが潜在変数間に依存関係(θ=>z)があるので、θ、zそれぞれ独立に周辺化できない。 そこでBlei論文では変分ベイズ法という方法を使ってθとzの依存関係を切り離す方法をとっている。一方でGriffithsらのギプスサンプラを使う方法ではサンプリングしたzを使うことでzを観測データにしてしまうことで上記問題を解決している(多分 ついでにβにもディリクレ事前分布を導入していてBlei論文でのβをφ、ディリクレパラメータをβとしている。紛らわしい。その結果 α=>[θ=>[z=>w]]<=[φ]<=β α,β: パラメー

                                                                          Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei
                                                                        • LDA の Collapsed Variational Bayesian 推論 - 木曜不足

                                                                          Collapsed Gibbs Sampling (以下 CGS)で LDA の推論を行う話は Latent Dirichlet Allocations(LDA) の実装について - 木曜不足 にて書いたのだけど、今回はそれとは別の Collapsed Variational Bayesian (以下 CVB) で推論を行う話。 まず、LDA の原論文である [Blei+ 2003] では Variational Bayesian (変分ベイズ、以下 VB)で推論を行っていた。 これは LDA の確率変数 z, θ,φ に対し(観測変数 x は除く)、まず真の事後分布 q(z,θ,φ) を考える。 この真の事後分布において z,θ,φ が互いに独立ではないのだが、それを計算のために独立であると仮定してしまう。 この仮定が変分近似で、この仮定の下で q(z,θ,φ)≈Πq(z_ij)Πq(θ

                                                                            LDA の Collapsed Variational Bayesian 推論 - 木曜不足
                                                                          • LDA のパープレキシティを使うとき - 木曜不足

                                                                            NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね?」 なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って(かな?)トピックモデルをなにがしか絡めて研究されており、このブログの LDA ネタを参照していただけているという。なんとも有り難いというか照れくさいというか。 なにがしかのお役に立てているのはもちろん嬉しい反面、n_shuyo は言語処理も機械学習も専門家ではないので、ここに書いてあることを鵜呑みにはしないでいただくことはやっぱりお願いしておかなければ。 というわけで、不足や間違いの指摘は絶賛大歓迎>読者各位 で、ここまで前振り。 そうしたポスターの発表を拝見させていただいていた中で、パープレキシティ周りの扱いがちょっと気になったので、少し思うところをま

                                                                              LDA のパープレキシティを使うとき - 木曜不足
                                                                            • [LED電球、どれを買う?] 東芝「E-CORE 一般電球形 10.6W LDA11L-G」 ~明るさ、汎用性の高さはトップクラス。60W白熱電球との交換にはコレ

                                                                              • lda, a Latent Dirichlet Allocation package

                                                                                lda, a Latent Dirichlet Allocation package. Daichi Mochihashi NTT Communication Science Laboratories $Id: index.html,v 1.3 2004/12/04 12:47:35 daiti-m Exp $ Overview lda is a Latent Dirichlet Allocation (Blei et al., 2001) package written both in MATLAB and C (command line interface). This package provides only a standard variational Bayes estimation that was first proposed, but has a simple textu

                                                                                • LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog

                                                                                  大学院で自然言語処理の研究をしつつ、ブログタイトルのようなものを趣味的にチマチマと作っていまいた。個人的になかなか面白い解析結果が出たと思ったのでご紹介します。 目標: 1.twitter上で、ある入力ユーザ(自分でなくてもよい)と興味の対象が似ているユーザを発見する 2.興味あるトピックには、どういう単語が含まれているか発見する 手法: 1.1ユーザのツイート全体を1つの文書としてモデリングし、LDAで解析 2.全てのユーザについて、トピック-ユーザの特徴ベクトルの距離を使って類似度を計算 特徴: 1.巷にあるソーシャルネットワーク系の解析でありがちな、ユーザ同士のリンク情報を全く使っていない 2.トピックの次元は語彙の次元と比べてかなり小さい(1/(10^3)くらい)ので、単に単語の頻度を数えるのと比べて柔軟 解析結果ですが、とりあえずpythonの処理系が動作する環境で確認できるよう

                                                                                    LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog