並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 55件

新着順 人気順

topicModelの検索結果1 - 40 件 / 55件

  • 太宰治の文学の変化をTopic Modelで分析する · Naoki Orii's blog

    海外に長い間住んでいると、日本語の活字を無性に読みたくなることが頻繁にある。青空文庫はその飢えを満たしてくれるサイトのうちのひとつだ。夏目漱石、芥川竜之介、宮沢賢治など名だたる作家の作品が収められているが、中でも太宰治の作品は私にとって特別な存在だ。 太宰治というと、「人間失格」のテーマ及び彼自身の入水自殺のインパクトがあまりにも強いためか、「暗い」「陰鬱」というイメージがあるようだ。例えば、私がまだ日本に住んでいた頃に軽い病気を患って1週間ほど入院していた時のことだ。元来読書が好きだったので、「久しぶりに集中して本を読む時間が出来た」くらいの軽い気持ちで「太宰治全集」を読んでいたら検温をしに来た看護師の方に「大丈夫ですか」と深刻な表情で訊かれたのを今でも記憶している。実際のところ、太宰は一貫して「暗い」作品を書いていたわけではなく、「お伽草紙」「富嶽百景」「走れメロス」などの明るい作品も

    • LDA入門

      IBIS 2021 https://ibisml.org/ibis2021/ における最適輸送についてのチュートリアルスライドです。 『最適輸送の理論とアルゴリズム』好評発売中! https://www.amazon.co.jp/dp/4065305144 Speakerdeck にもアップロードしました: https://speakerdeck.com/joisino/zui-shi-shu-song-ru-men 最適輸送問題(Wasserstein 距離)を解く方法についてのさまざまなアプローチ・アルゴリズムを紹介します。 線形計画を使った定式化の基礎からはじめて、以下の五つのアルゴリズムを紹介します。 1. ネットワークシンプレックス法 2. ハンガリアン法 3. Sinkhorn アルゴリズム 4. ニューラルネットワークによる推定 5. スライス法 このスライドは第三回 0x-

        LDA入門
      • 検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方

        はじめに 本稿では、はてなブックマークの10周年記念の第1弾として開発した「トピックページ」の作り方について解説します。トピックページとは、インターネット上で話題となったトピックを閲覧できるページです。 トピックページは、トピックに関連する記事の集合とトピックを表すタイトルから構成されます。 トピックページ生成の流れは以下の通りです。 トピック生成 トピック表すキーワード集合を獲得し、そのキーワードに関連する記事を収集する。 トピックタイトル生成 トピックに関連する記事の情報を利用してトピックを表すタイトルを生成する。 本稿では、Elasticsearchなどの検索技術を活用したトピック生成方法、および、CaboChaなどの自然言語処理技術を活用したトピックタイトル生成方法について説明します。 対象読者 Elasticsearchを利用している/したい方 検索技術、自然言語処理技術に関心の

          検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方
        • 経済学、数学、統計学などの資料纏め - あんちべ!

          ※適宜追加します 経済学 計量経済学 京大 末石直也 http://www.econ.kyoto-u.ac.jp/~sueishi/econometrics/econometrics.html 経済数学系資料 http://www.f.waseda.jp/ksuga/ 経済学のための位相数学の基礎とブラウワーの不動点定理 http://www2.chuo-u.ac.jp/keizaiken/discussno39.pdf 経済学のための最適化理論:講義ノート http://www.meijigakuin.ac.jp/~mashiyam/pdfdocs/optimization.pdf 経済学に必要な最適化理論 http://mediaislandr.org/pdf/static_optimization.pdf 経済学のための確率論入門 http://www.meijigakuin.ac.

            経済学、数学、統計学などの資料纏め - あんちべ!
          • Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

            gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。 コーパスの作り方 以下の公式の例で説明します この例ではリスト内のそれぞれの要素が1つの文書となります

              Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
            • トピックモデルを利用したアプリケーションの作成 | Tech-Sketch

              最近、「機械学習」や「自然言語処理」、といったキーワードを聞くことが多くなってきていると思います。 反面、すごそうだけどなんだか難しいもの、というイメージもあるのではないかと思います。そこで、今回は「自然言語処理」の一種であるトピックモデルを取り上げ、その仕組みを紹介するとともに、その実装方法について解説していきたいと思います。 (「機械学習」の方については、以前開催した勉強会の資料がありますので、興味があればそちらもご参照ください。) トピックモデルとは トピックモデルは、確率モデルの一種になります。つまり、何かが「出現する確率」を推定しているわけです。 トピックモデルが推定しているのは、文章中の「単語が出現する確率」になります。これをうまく推定することができれば、似たような単語が出てくる文章(=似たようなモデルの文書)が把握でき、ニュース記事などのカテゴリ分類を行ったりすることができま

                トピックモデルを利用したアプリケーションの作成 | Tech-Sketch
              • H24:Introduction to Statistical Topic Models

                統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献 「私のブックマーク: Latent Topic Model (潜在的トピックモデ

                • トピックモデルことはじめ

                  All slide content and descriptions are owned by their creators.

                    トピックモデルことはじめ
                  • Gensim: topic modelling for humans

                    ✔   Train large-scale semantic NLP models ✔   Represent text as semantic vectors ✔   Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t

                    • 株式会社ALBERT(レコメンドエンジン)

                      データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

                        株式会社ALBERT(レコメンドエンジン)
                      • トピックモデルを俯瞰して学ぶ - ひつじの〜と 備忘録

                        本記事は,自然言語処理 Advent Calendar 2019 - Qiita です. はじめに 本記事ではトピックモデルと呼ばれるモデル・分野の中で最も有名なLatent Dirchlet Allocation, 通称LDA*1 とその周りのトピックモデルに関して,どんな資料があるのか?,どういった研究があるのか? といったことに主眼をおいてトピックモデルの研究とかを昔していた私の独断と偏見によるリストアップを行いました. 私の頭は2017年くらいで止まっているので、間違っている点があったり、今の主流とは異なる可能性もありますが、 暖かくご指摘いただけると助かります. Latent Dirchlet Allocation[Blei+,03]を始めとするトピックモデルを学ぶに当たって 何が参考になるのか どういった研究があるのか? 実際にどうやって使うのか?(まだ出来てないよ・・・) と

                          トピックモデルを俯瞰して学ぶ - ひつじの〜と 備忘録
                        • トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む

                          LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデルであるため、Perplexity の定義は明確です。 一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。 本記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。 例えば、トピックが { farmers, farm, food

                            トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む
                          • [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記

                            最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。 (追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Document Collections (KDD 2009) 論文の話は2つあって一つ目がSparseLDAというCollapsed Gibbs samplerの省メモリかつ高速な方法の提案と2つ目はオンラインで文章が入力されるような場合において訓練データと新規データをどう使うかという戦略について述べて実験している。 Collapsed Gibbs samplerを高速化しようという論文はPorteous et al.(KDD 2008)でも述べられているけどそれよりも2倍ぐらい高速(通

                              [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記
                            • 機械学習を網羅したおすすめ書籍プロフェッショナルシリーズ全29巻が2015年4月に発売 | Brainvalley 人工知能と脳科学のアーカイブサイト。

                              カンデル神経科学は、脳科学・神経科学分野のバイブル的存在。2014年4月に日本語版が出版され、英語や医学用語が得意でない方にも大変読みやすくなりました。脳科学、神経科学について学ぶなら絶対に持っておきたいおすすめの一冊。 カンデル神経科学(Amazon) カンデル神経科学(楽天)

                                機械学習を網羅したおすすめ書籍プロフェッショナルシリーズ全29巻が2015年4月に発売 | Brainvalley 人工知能と脳科学のアーカイブサイト。
                              • Topicに基づく統計的言語モデルの最前線 PLSIからHDPまで

                                , 2006.3.13 Topic URL= http://www.mibel.cs.tsukuba.ac.jp/~myama/pdf/topic2006.pdf • – • ex. • – – – • • UM DM PLSI LDA [ 1999] HDP � �� �� �� �� �� ��������������������������������������������������������� Eurospeech 㖸㗀ቇળ⎇ⓥ⊒⴫ળ ᤐ ⛔ ⸘ ⊛ ⸒ ⺆ ࡕ ࠺ ࡞ 㑐 ㅪ ⺰ ᢥ ᢙ ࡐࠬ࠲࡯㒰ߊ㧕 1/2 • • n-gram – Noisy Channel Models – – • – – 2/2 • PLSI LDA Probabilisitic LSI Latent Dirichlet Allocation UM DM Unigram Mixtures Diri

                                • トピックモデルついて勉強する - Re:ゼロから始めるML生活

                                  推薦システムの勉強をちょっとずつ再開している関連で、トピックモデルを勉強してみようと思い、こちらを購入しました。 トピックモデル (機械学習プロフェッショナルシリーズ) 作者:岩田 具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本(ソフトカバー) 今回はこちらを読んで勉強したことのメモです。 トピックモデル is なに? モデル化でやりたいこと ユニグラム/混合ユニグラムモデル トピックモデルの生成過程 トピックモデル一巡り トピック is なに? 具体的な中身について 実際には何を定めればよいか :トピックごとの単語分布 最尤推定 Map推定(最大事後確率推定) ベイズ推定 混合モデルが含まれたときの単語分布 EMアルゴリズム 変分ベイズ推定 ギブスサンプリング その他、参考にした記事 感想 トピックモデル is なに? 定義を確認します。 トピックモデルは

                                    トピックモデルついて勉強する - Re:ゼロから始めるML生活
                                  • TopicModelの最終形態? Structured Topic Modelのご紹介 - Retrieva TECH BLOG

                                    こんにちは。レトリバの飯田です。カスタマーサクセス部 研究チームに所属しており、論文調査やそのアルゴリズムを実行するスクリプトの実装などを行なっています。 今回は、Bag of Words(BoW)表現に於いて、これがTopicModelの最終形態ではないか?と私が思っているStructured Topic Modelの紹介と再現実装をpythonで行なったので、その紹介をします。 https://github.com/retrieva/python_stm Structured Topic Modelとは Correlated Topic Model(CTM) Sparse Additive Generative Model(SAGE) STMの更なる特徴 文書ートピックの分布の推定に対し文書属性情報を考慮できる 積分消去による高速化 STMの使い方 Covariate(Y)の使い方 P

                                      TopicModelの最終形態? Structured Topic Modelのご紹介 - Retrieva TECH BLOG
                                    • トピックモデルで単語の分散表現 - 理論編 - scouty AI LAB

                                      こんにちは。代表の島田です。 最近はDeepLearningがホットなキーワードになっていますが、トピックモデルという自然言語処理における手法も、少し前に注目を集めました。聞いたことはあるけど何なのかわからない、という方のために、今回はトピックモデルに関して説明します。 Pythonなどの言語ではライブラリが利用できますが、トピックモデルなどの原理を知っておくことでパラメータチューニングが思いのままにできるようになります。 LDAやトピックモデルについては最新の技術!というわけではないので他にも解説記事があると思いますが、今回は「流行りの単語がとりあえず何なのか知る」ということを目的に、前半は機械学習エンジニアではない方にもわかりやすく解説しようと思います。 モチベーション 単語をベクトルで表したい! 自然言語データを使ったレコメンドエンジンの構築やテキストの分類などで、単語をクラスタリン

                                      • 自然言語処理研究会 - tsubosakaの日記

                                        id:nokunoさんが主宰する第2回自然言語処理勉強会@東京で"Latent Dirichlet Allocation入門"というタイトルで発表してきました。 内容としては機械学習ライブラリMalletに実装されているLDAのマルチスレッド実装クラスのParallelTopicModelで使われているトピックモデルの技術を紹介するという話でした。 Latent Dirichlet Allocation入門View more presentations from tsubosaka. 本当は文章検索への応用とかの話もしたかったのですが準備に時間が足りず断念

                                          自然言語処理研究会 - tsubosakaの日記
                                        • トピックモデルの評価指標 Perplexity とは何なのか?

                                          『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料 http://topicmodel.connpass.com/event/27999/Read less

                                            トピックモデルの評価指標 Perplexity とは何なのか?
                                          • トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)

                                            このシリーズのメインともいうべきLDA([Blei+ 2003])を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。 グラフィカルモデルは以下になります(左: LDA, 右(参考): 前回のUM)。   見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような

                                              トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)
                                            • 【開催報告&資料公開】ML@Loft #3 – Recommendation | Amazon Web Services

                                              AWS Startup ブログ 【開催報告&資料公開】ML@Loft #3 – Recommendation AWS 機械学習ソリューションアーキテクトの宇都宮 (Twitter: @shokout) です。本ブログでは ML@Loft 第3回「レコメンド」の開催概要を報告します。 ML@Loft は、 機械学習を AWS 上でプロダクション運用しているデベロッパー・データサイエンティストのためのコミュニティイベントです。毎月テーマを設定し、前半は各分野のエキスパートの方々からのLT、後半は機械学習のサービス導入のノウハウや様々なツラミについて、LT のご講演者の方々を交えて参加者全員参加型のお悩み相談ラウンドテーブルという構成で AWS Loft Tokyo にて実施しています。 第2回 [Blog] は、第1回で好評だった MLOps のテーマを引き続き、そして今回 6/21 (金)

                                                【開催報告&資料公開】ML@Loft #3 – Recommendation | Amazon Web Services
                                              • David M. Blei

                                                Computer Science Department Princeton University Computer Science Room 419 35 Olden St Princeton, NJ 08540 609.258.9907 (P) 609.258.1771 (F) blei@cs.princeton.edu Topic Modeling Much of my research is in topic modeling, developing algorithms to uncover the hidden thematic structure of a collection of documents. These algorithms help us develop new ways to search, browse and summarize large

                                                • LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita

                                                  はじめに この記事では pythonのライブラリの gensimの中のLDAのモデルを使ってフォローされたQiitaタグの関係からユーザーの嗜好を考えてみようということをやってみます。 トピックモデルやgensimを実際にデータと共に使ってみることでどんなものか見てみることを目的とします。これを入り口にしてトピックモデルを実際に使ってみたり、詳しく勉強をはじめるきっかけとなれば幸いです。 LDAのモデルの内部がどのように実装しているかにはあまりふれません。「どういうことが出来るのか」にフォーカスします。また、データの取得(スクレイピング他)も触れます。 データ取得(スクレイピング、API) データの成形 モデルへの適用 詳しく説明している記事もありましたのでこの記事を読まれた後に物足りなさを感じた方は読んで見るとよいかと思います。 数式をなるべく使わずにトピックモデルの解説にチャレンジ 図

                                                    LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita
                                                  • Gensim: topic modelling for humans

                                                    ✔   Train large-scale semantic NLP models ✔   Represent text as semantic vectors ✔   Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t

                                                    • トピックモデルシリーズ 2 NB(Naive Bayes)

                                                      このシリーズははじめの2ステップ(NB→UM→LDA)がとっつきにくいですがそこまで理解すれば後のモデルの拡張はそんなに難しくは感じませんでした。そのためNBから順にしっかり理解することが重要と思います。またNBとUMは文書のトピックが与えられているかそうでないかの違いしかなく、BUGSコードは全く同一のまま動きます(Stanでは離散パラメータを含みますので多少面倒になります)。今回はNBの分かりやすい説明を試みたのち、実際にStanでの実装と結果を見ていきたいと思います。 はじめにこの記事の表記から。以下になっています。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。与えられているデータ(前回の記事の data1 の w.1)は以下の図のようになっています。 文書が1-100(M)まであり、その各文書に144(V)種類の単語のいずれかが出現しています。

                                                        トピックモデルシリーズ 2 NB(Naive Bayes)
                                                      • 統計数理研究所 H24年度公開講座「確率的トピックモデル」

                                                        • 20151221 public

                                                          グリー開発本部 Meetup #2 ゲーム x 強化学習エンジニアリングで発表させていただいた際の資料です. 当日の発表では一部,こちら (https://www.slideshare.net/yukono1/ss-102843951) の内容は使っているので,合わせてご覧になっていただければと思います.

                                                            20151221 public
                                                          • http://chasen.org/~daiti-m/paper/daichi15topicmodel-for-ecology.pdf

                                                            • (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足

                                                              7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Measures を紹介してみた。発表資料はこちら。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.slideshare.net 論文では Stick Breaking Process と Polya Urn の2つでモデルを表現していたが、そのあとどうせ Gibbs s

                                                                (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足
                                                              • Mark Steyvers – Research of Mark Steyvers

                                                                Department of Cognitive Sciences University of California, Irvine mark.steyvers@uci.edu Research Areas Learning & MemoryHow can we leverage large-scale data to analyze the learning trajectories across individuals and cognitive tasks? How do we develop computational models to explain what is learned when individuals improve a skill?Cognitive Skill Acquisition & TransferHow can we leverage large-sca

                                                                • Topic modeling bibliography

                                                                  Edoardo M. Airoldi, David M. Blei, Stephen E. Fienberg, Eric P. Xing. Mixed Membership Stochastic Blockmodels. JMLR (9) 2008 pp. 1981-2014. @article{airoldi2008mixed, author={Edoardo M. Airoldi and David M. Blei and Stephen E. Fienberg and Eric P. Xing}, title={Mixed Membership Stochastic Blockmodels}, journal={JMLR}, year={2008}, volume={9}, pages={1981-2014}, } David Andrzejewski, Xiaojin Zhu, M

                                                                  • GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.

                                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                      GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.
                                                                    • Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18

                                                                      『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料 http://topicmodel.connpass.com/event/27999/

                                                                        Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
                                                                      • Mark Steyvers – Research of Mark Steyvers

                                                                        Department of Cognitive Sciences University of California, Irvine mark.steyvers@uci.edu Research Areas Learning & MemoryHow can we leverage large-scale data to analyze the learning trajectories across individuals and cognitive tasks? How do we develop computational models to explain what is learned when individuals improve a skill?Cognitive Skill Acquisition & TransferHow can we leverage large-sca

                                                                        • H24:Introduction to Statistical Topic Models

                                                                          統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 一日目: 持橋分 (2013/1/15) [講義資料] (14.1MB) updated! 二日目: 石黒分 (2013/1/16) [講義資料] (12.4MB) [以下の資料を全部結合したもの] イントロダクション 相関・構造をもつトピックモデル トピックモデルの応用: 時系列データ トピックモデルの応用: 教師情報・補助情報つきモデル トピックモデルの応用: 関係データ・ネットワークデータ トピックモデルの応用: 画像・動画像データ トピックモデルの応用: 音声・音響データ ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm

                                                                          • Amazon.co.jp: トピックモデル (機械学習プロフェッショナルシリーズ): 岩田具治: 本

                                                                              Amazon.co.jp: トピックモデル (機械学習プロフェッショナルシリーズ): 岩田具治: 本
                                                                            • トピックモデルの応用: 相関・構造をもつトピックモデル

                                                                              NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • 機械学習の研究分野では、日々新しい、より 柔軟で表現力の高い(≒複雑な)トピックモ デルが提案されています • このスライドでは、それらのうち、特に構造化 に関する仕事を厳選してご紹介します 2 • 誤解を恐れずにいえば、単純な混合ガウシア ンモデル(GMM)が理解できれば、LDAは理 解できます • GMMがその単純さゆえに非常に幅広いドメ インの連続データで有効なように、LDAも幅 広いドメインの離散データで有効です 3 • モデルが単純ということは、大胆な仮定を置 いてデータを表現していることになります • 実際のデータと明らかに合わない仮定の場 合、これを正す必要があります • 沢山の複雑化したトピックモデルが提案され ています 4 Correlated Topic

                                                                              • Topic Suggestions for Millions of Repositories

                                                                                If a phrase has many words with low idf weighting, then its overall score should be lower compared to a phrase with more significant words – this is the intuition behind our tf-idf scoring strategy. As an example, assuming that the normalized tf of each word above is 0.5, the average tf-idf score for “machine-learning-application” would be 3.21 and the average tf-idf score for “machine-learning-as

                                                                                  Topic Suggestions for Millions of Repositories
                                                                                • http://www.phontron.com/slides/nlp-programming-ja-07-topic.pdf