タグ

topicとldaに関するyassのブックマーク (13)

  • ノンパラメトリックベイズ言語モデルによる コーパス内トピック抽出 2010年6月22日 知識工学部 阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例 概要 1. トピックとは? 2. ベイズ統

    ノンパラメトリックベイズ言語モデルによる コーパス内トピック抽出 2010年6月22日 知識工学部 阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例 概要 1. トピックとは? 2. ベイズ統計言語モデル 3. コーパスからのトピック抽出例 4. 問題点  トピックとは? 文書集合(コーパス)の単語出現頻度は 時期・分野・地域…etcの影響を受けて変動する (例)円高…経済記事では出現頻度が高いが       芸能記事では少ない    …1月の新聞記事では出現頻度が高いが      8月の記事では少ない  トピックとは? (2) トピック = 単語出現頻度を変動させる       (潜在的な)要因 問題:コーパスのみが与えられている状況で、各文書の単 語出現頻度から、そのコーパスに潜在しているトピックに したがって、コーパス内の各単語を分類・クラスタリング し、その結

    yass
    yass 2014/06/23
  • 社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

    会社で最近始まった論文の輪講で担当だったので、発表をした。 論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。 内容 内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング 紹介したものを少し修正したものをアップした。 感想 1つ目はスコアリングの際にトピックを考慮することによ

    社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog
  • Mallet: MAchine Learning for LanguagE Toolkit

    View the Project on GitHub mimno/Mallet Download ZIP File Download TAR Ball View On GitHub Mallet: MAchine Learning for LanguagE Toolkit MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text. MALLET includes sophisticated tools for document classificati

  • トピックモデルシリーズ 1 概要

    せっかく区切りがいいところまで勉強したのにoutputしないと忘れそうなので、メモを兼ねてしばらくトピックモデルについて記事を書きます。JAGSで実行したところ、そこそこ速いし収束もしました。しかしほとんど意味をなさないような幅広い推定結果になってしまいましたのでStanを使うことにしました。はじめにStanで実装するメリット・デメリットについて簡単に触れたいと思います。 メリット ・実装がラク。LDAでも30行ぐらい。 ・ややこしい推論部分は一切実装しなくてOK。全部StanのHMCサンプリングにお任せ。 ・モデルの拡張が簡単。 デメリット ・計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースでは トピック数が20, iter=1000で9時間, iter=10000で35時間でした。Stanのmulti-threading対応待ち。 ・データが少ないと収束しない

    yass
    yass 2014/02/14
    " 計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースでは トピック数が20, iter=1000で9時間, iter=10000で35時間 / トピックに階層構造がある場合はPAM(Pachinko Allocation Model)というモデル "
  • GibbsLDA++でトピック分析 - よしなしごと

    なぜか唐突にブログを同時更新使用みたいな話が決まってしまったので、無理矢理エントリを書いています。 自然言語処理のトピックモデルの一つの手法であるLDAを使ってみました。 LDAについては以下のスライドが詳しいので、参照ください。 LDA入門 一部引用すると ・白鵬が単独首位 琴欧洲敗れる ・人は上の文を見て相撲に関係する文であることを理解できる 文中に相撲という単語は出てこないにもかかわらず ・単語は独立に存在しているのではなく、潜在的なトピックを持つ単語は同じ文章に出現しやすい といったモデルです。 ギブスサンプリング*1によるLDAをC++で実装したソフトが公開されています*2。Pythonによる実装*3もいくつかありましたが、今回は研究室の人が利用しているこちらを。 GibbsLDA++: A C/C++ Implementation of Latent Dirichlet All

    GibbsLDA++でトピック分析 - よしなしごと
    yass
    yass 2013/09/04
  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

    株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

    yass
    yass 2013/08/19
    " LDAでは、文章の背景には、”トピックの混合率”が存在すると考えます。例えば下のような「トピック1が10%、トピック2が70%、トピック3が20%混ざった文章」を考えます。"
  • トピックモデルメモ - Negative/Positive Thinking

    はじめに トピックモデルについてメモ。 トピックモデルとは 文書は、何らかの話題について書かれていたりする 「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられる トピックモデルは、文書から「何らかの話題(=トピック)」を発見するための統計的なモデルのこと トピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

    トピックモデルメモ - Negative/Positive Thinking
  • 単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

    トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピック 同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり. 例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい,など. トピックモデルは文書のトピックと,トピックに属する単語を推定する. 単語頻度からトピックモデルまでの流れのイメージ 文書をモデル化しよう→単語の頻度 同義語や多義語を捉えよう≒次元削減をしよう→LSA=SVD→以下がトピックモデル 確率的にしよう→PLSI ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

    単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
  • Vol.27 No.3 (2012/05) Latent Topic Model (潜在的トピックモデル) | 人工知能学会 (The Japanese Society for Artificial Intelligence)

    私のブックマーク Latent Topic Model (潜在的トピックモデル)東京大学 情報基盤センター助教 佐藤 一誠 (Issei Sato) URL: http://www.r.dl.itc.u-tokyo.ac.jp/~sato/ 1.はじめに 近年、Topic modelと呼ばれる確率的潜在変数モデルが、機械学習とデータマイニングの境界分野で盛んに研究されています。また、Topic modelは、自然言語処理、画像処理、Web解析など様々な応用分野でも多くの適用例が報告されています。 ここでは、Topic modelの研究に関する情報を紹介します。 2.国際会議機械学習およびデータマイニングでは、主に国際会議で最先端の議論がされているため、主要国際会議を把握しておくことが重要です。Topic modelの研究では、主に以下の国際会議が重要視されています。 Neural Info

  • lda, a Latent Dirichlet Allocation package

    lda, a Latent Dirichlet Allocation package. Daichi Mochihashi NTT Communication Science Laboratories $Id: index.html,v 1.3 2004/12/04 12:47:35 daiti-m Exp $ Overview lda is a Latent Dirichlet Allocation (Blei et al., 2001) package written both in MATLAB and C (command line interface). This package provides only a standard variational Bayes estimation that was first proposed, but has a simple textu

  • 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

    小説家になろうというWeb小説投稿サイトがあります。 いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。 続々と「小説家になろう」から書籍化作品が登場! - フラン☆Skin はてな支店 小説を読もう! || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。 解析手法 トピックモデルというものを用います。 これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。 今回はLDA(Latent Dirichlet Allocation)という

    小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
  • H24:Introduction to Statistical Topic Models

    統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献 「私のブックマーク: Latent Topic Model (潜在的トピックモデ

  • トピックモデルを用いてWeb小説のジャンル・流行を分析しよう

    トピックモデルを用いて W e b 小説のジャンル・ 流行を分析しよう 2 0 1 3 / 0 3 / 1 9 ( K M C 春合宿2 0 1 3 ) 近藤 誠一 ( @ s e i k i c h i ) 自己紹介 近藤 誠一 (@seikichi): p༇  大学院修士1回生 p༇  情報学研究科知能情報学専攻 趣味: p༇  ラノベ,料理,アニメ 近況: p༇  電子書籍を買いまくり読みまくり楽しすぎ p༇  シュウ……カツ……シュウ……カツ…… 目次 p༇  今「小説家になろう」がアツい p༇  トピックモデルことはじめ p༇  Latent Dirichlet Allocation (LDA) を用いた Web小説ジャンル解析 p༇  Dynamic Topic Model (DTM) を用いた Web小説ジャンル遷移解析 p༇  まと

  • 1