[B! topic][lda] yassのブックマーク

ノンパラメトリックベイズ言語モデルによるコーパス内トピック抽出 2010年6月22日知識工学部　阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例概要 1.　トピックとは？ 2.　ベイズ統

ノンパラメトリックベイズ言語モデルによるコーパス内トピック抽出 2010年6月22日知識工学部　阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例概要 1.　トピックとは？ 2.　ベイズ統計言語モデル 3.　コーパスからのトピック抽出例 4.　問題点　トピックとは? 文書集合（コーパス）の単語出現頻度は時期・分野・地域…etcの影響を受けて変動する（例）円高…経済記事では出現頻度が高いが　　　　　　芸能記事では少ない　　　餅…1月の新聞記事では出現頻度が高いが　　　　　8月の記事では少ない　トピックとは?　(2) トピック　=　単語出現頻度を変動させる　　　　　　（潜在的な）要因問題：コーパスのみが与えられている状況で、各文書の単語出現頻度から、そのコーパスに潜在しているトピックにしたがって、コーパス内の各単語を分類・クラスタリングし、その結

yass 2014/06/23

LDA
topic

リンク

社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

会社で最近始まった論文の輪講で担当だったので、発表をした。論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。内容内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング紹介したものを少し修正したものをアップした。感想 1つ目はスコアリングの際にトピックを考慮することによ

yass 2014/06/15

リンク

Mallet: MAchine Learning for LanguagE Toolkit

View the Project on GitHub mimno/Mallet Download ZIP File Download TAR Ball View On GitHub Mallet: MAchine Learning for LanguagE Toolkit MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text. MALLET includes sophisticated tools for document classificati

yass 2014/06/14

リンク

トピックモデルシリーズ 1 概要

せっかく区切りがいいところまで勉強したのにoutputしないと忘れそうなので、メモを兼ねてしばらくトピックモデルについて記事を書きます。JAGSで実行したところ、そこそこ速いし収束もしました。しかしほとんど意味をなさないような幅広い推定結果になってしまいましたのでStanを使うことにしました。はじめにStanで実装するメリット・デメリットについて簡単に触れたいと思います。メリット・実装がラク。LDAでも30行ぐらい。・ややこしい推論部分は一切実装しなくてOK。全部StanのHMCサンプリングにお任せ。・モデルの拡張が簡単。デメリット・計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースではトピック数が20, iter=1000で9時間, iter=10000で35時間でした。Stanのmulti-threading対応待ち。・データが少ないと収束しない

yass 2014/02/14

" 計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースではトピック数が20, iter=1000で9時間, iter=10000で35時間 / トピックに階層構造がある場合はPAM（Pachinko Allocation Model）というモデル "

リンク

GibbsLDA++でトピック分析 - よしなしごと

なぜか唐突にブログを同時更新使用みたいな話が決まってしまったので、無理矢理エントリを書いています。自然言語処理のトピックモデルの一つの手法であるLDAを使ってみました。 LDAについては以下のスライドが詳しいので、参照ください。 LDA入門一部引用すると・白鵬が単独首位琴欧洲敗れる・人は上の文を見て相撲に関係する文であることを理解できる文中に相撲という単語は出てこないにもかかわらず・単語は独立に存在しているのではなく、潜在的なトピックを持つ単語は同じ文章に出現しやすいといったモデルです。ギブスサンプリング*1によるLDAをC++で実装したソフトが公開されています*2。Pythonによる実装*3もいくつかありましたが、今回は研究室の人が利用しているこちらを。 GibbsLDA++: A C/C++ Implementation of Latent Dirichlet All

yass 2013/09/04

LDA
topic

リンク

Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

株式会社ゴクロの中路です。以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。一方、LDAの場合は、東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

yass 2013/08/19

" LDAでは、文章の背景には、”トピックの混合率”が存在すると考えます。例えば下のような「トピック1が10%、トピック2が70%、トピック3が20%混ざった文章」を考えます。"

リンク

トピックモデルメモ - Negative/Positive Thinking

はじめにトピックモデルについてメモ。トピックモデルとは文書は、何らかの話題について書かれていたりする「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられるトピックモデルは、文書から「何らかの話題(＝トピック)」を発見するための統計的なモデルのことトピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

yass 2013/05/17

リンク

単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど，詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ．専門でないので，詳しくは参考文献を読んだほうがいいです．トピック同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり．例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい，など．トピックモデルは文書のトピックと，トピックに属する単語を推定する．単語頻度からトピックモデルまでの流れのイメージ文書をモデル化しよう→単語の頻度同義語や多義語を捉えよう≒次元削減をしよう→LSA＝SVD→以下がトピックモデル確率的にしよう→PLSI ベイズ的にしよう＝訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

yass 2013/05/11

リンク

Vol.27 No.3 (2012/05) Latent Topic Model (潜在的トピックモデル) | 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク Latent Topic Model (潜在的トピックモデル)東京大学情報基盤センター助教佐藤一誠 (Issei Sato) URL: http://www.r.dl.itc.u-tokyo.ac.jp/~sato/ 1.はじめに近年、Topic modelと呼ばれる確率的潜在変数モデルが、機械学習とデータマイニングの境界分野で盛んに研究されています。また、Topic modelは、自然言語処理、画像処理、Web解析など様々な応用分野でも多くの適用例が報告されています。ここでは、Topic modelの研究に関する情報を紹介します。 2.国際会議機械学習およびデータマイニングでは、主に国際会議で最先端の議論がされているため、主要国際会議を把握しておくことが重要です。Topic modelの研究では、主に以下の国際会議が重要視されています。 Neural Info

yass 2013/05/09

リンク

lda, a Latent Dirichlet Allocation package

lda, a Latent Dirichlet Allocation package. Daichi Mochihashi NTT Communication Science Laboratories $Id: index.html,v 1.3 2004/12/04 12:47:35 daiti-m Exp $ Overview lda is a Latent Dirichlet Allocation (Blei et al., 2001) package written both in MATLAB and C (command line interface). This package provides only a standard variational Bayes estimation that was first proposed, but has a simple textu

yass 2013/04/30

リンク

小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という

yass 2013/04/30

リンク

H24:Introduction to Statistical Topic Models

統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献「私のブックマーク: Latent Topic Model (潜在的トピックモデ

yass 2013/04/29

リンク

トピックモデルを用いてWeb小説のジャンル・流行を分析しよう

トピックモデルを用いて W e b 小説のジャンル・流行を分析しよう 2 0 1 3 / 0 3 / 1 9 ( K M C 春合宿2 0 1 3 ) 近藤誠一 ( @ s e i k i c h i ) 自己紹介近藤誠一 (@seikichi): p༇  大学院修士1回生 p༇  情報学研究科知能情報学専攻趣味: p༇  ラノベ，料理，アニメ近況: p༇  電子書籍を買いまくり読みまくり楽しすぎ p༇  シュウ……カツ……シュウ……カツ…… 目次 p༇  今「小説家になろう」がアツい p༇  トピックモデルことはじめ p༇  Latent Dirichlet Allocation (LDA) を用いた Web小説ジャンル解析 p༇  Dynamic Topic Model (DTM) を用いた Web小説ジャンル遷移解析 p༇  まと

yass 2013/04/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

topicとldaに関するyassのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス