並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 34 件 / 34件

新着順 人気順

topicModelの検索結果1 - 34 件 / 34件

  • 太宰治の文学の変化をTopic Modelで分析する · Naoki Orii's blog

    海外に長い間住んでいると、日本語の活字を無性に読みたくなることが頻繁にある。青空文庫はその飢えを満たしてくれるサイトのうちのひとつだ。夏目漱石、芥川竜之介、宮沢賢治など名だたる作家の作品が収められているが、中でも太宰治の作品は私にとって特別な存在だ。 太宰治というと、「人間失格」のテーマ及び彼自身の入水自殺のインパクトがあまりにも強いためか、「暗い」「陰鬱」というイメージがあるようだ。例えば、私がまだ日本に住んでいた頃に軽い病気を患って1週間ほど入院していた時のことだ。元来読書が好きだったので、「久しぶりに集中して本を読む時間が出来た」くらいの軽い気持ちで「太宰治全集」を読んでいたら検温をしに来た看護師の方に「大丈夫ですか」と深刻な表情で訊かれたのを今でも記憶している。実際のところ、太宰は一貫して「暗い」作品を書いていたわけではなく、「お伽草紙」「富嶽百景」「走れメロス」などの明るい作品も

    • LDA入門

      2. 内容 • NLPで用いられるトピックモデルの代表である LDA(Latent Dirichlet Allocation)について紹介 する • 機械学習ライブラリmalletを使って、LDAを使 う方法について紹介する

        LDA入門
      • 検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方

        はじめに 本稿では、はてなブックマークの10周年記念の第1弾として開発した「トピックページ」の作り方について解説します。トピックページとは、インターネット上で話題となったトピックを閲覧できるページです。 トピックページは、トピックに関連する記事の集合とトピックを表すタイトルから構成されます。 トピックページ生成の流れは以下の通りです。 トピック生成 トピック表すキーワード集合を獲得し、そのキーワードに関連する記事を収集する。 トピックタイトル生成 トピックに関連する記事の情報を利用してトピックを表すタイトルを生成する。 本稿では、Elasticsearchなどの検索技術を活用したトピック生成方法、および、CaboChaなどの自然言語処理技術を活用したトピックタイトル生成方法について説明します。 対象読者 Elasticsearchを利用している/したい方 検索技術、自然言語処理技術に関心の

          検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方
        • Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

          gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。 コーパスの作り方 以下の公式の例で説明します この例ではリスト内のそれぞれの要素が1つの文書となります

            Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
          • トピックモデルを利用したアプリケーションの作成 | Tech-Sketch

            最近、「機械学習」や「自然言語処理」、といったキーワードを聞くことが多くなってきていると思います。 反面、すごそうだけどなんだか難しいもの、というイメージもあるのではないかと思います。そこで、今回は「自然言語処理」の一種であるトピックモデルを取り上げ、その仕組みを紹介するとともに、その実装方法について解説していきたいと思います。 (「機械学習」の方については、以前開催した勉強会の資料がありますので、興味があればそちらもご参照ください。) トピックモデルとは トピックモデルは、確率モデルの一種になります。つまり、何かが「出現する確率」を推定しているわけです。 トピックモデルが推定しているのは、文章中の「単語が出現する確率」になります。これをうまく推定することができれば、似たような単語が出てくる文章(=似たようなモデルの文書)が把握でき、ニュース記事などのカテゴリ分類を行ったりすることができま

              トピックモデルを利用したアプリケーションの作成 | Tech-Sketch
            • H24:Introduction to Statistical Topic Models

              統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献 「私のブックマーク: Latent Topic Model (潜在的トピックモデ

              • トピックモデルことはじめ

                All slide content and descriptions are owned by their creators.

                  トピックモデルことはじめ
                • Gensim: topic modelling for humans

                  ✔   Train large-scale semantic NLP models ✔   Represent text as semantic vectors ✔   Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t

                  • トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む

                    LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデルであるため、Perplexity の定義は明確です。 一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。 本記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。 例えば、トピックが { farmers, farm, food

                      トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む
                    • 機械学習を網羅したおすすめ書籍プロフェッショナルシリーズ全29巻が2015年4月に発売 | Brainvalley 人工知能と脳科学のアーカイブサイト。

                      カンデル神経科学は、脳科学・神経科学分野のバイブル的存在。2014年4月に日本語版が出版され、英語や医学用語が得意でない方にも大変読みやすくなりました。脳科学、神経科学について学ぶなら絶対に持っておきたいおすすめの一冊。 カンデル神経科学(Amazon) カンデル神経科学(楽天)

                        機械学習を網羅したおすすめ書籍プロフェッショナルシリーズ全29巻が2015年4月に発売 | Brainvalley 人工知能と脳科学のアーカイブサイト。
                      • [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記

                        最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。 (追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Document Collections (KDD 2009) 論文の話は2つあって一つ目がSparseLDAというCollapsed Gibbs samplerの省メモリかつ高速な方法の提案と2つ目はオンラインで文章が入力されるような場合において訓練データと新規データをどう使うかという戦略について述べて実験している。 Collapsed Gibbs samplerを高速化しようという論文はPorteous et al.(KDD 2008)でも述べられているけどそれよりも2倍ぐらい高速(通

                          [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記
                        • Topicに基づく統計的言語モデルの最前線 PLSIからHDPまで

                          , 2006.3.13 Topic URL= http://www.mibel.cs.tsukuba.ac.jp/~myama/pdf/topic2006.pdf • – • ex. • – – – • • UM DM PLSI LDA [ 1999] HDP � �� �� �� �� �� ��������������������������������������������������������� Eurospeech 㖸㗀ቇળ⎇ⓥ⊒⴫ળ ᤐ ⛔ ⸘ ⊛ ⸒ ⺆ ࡕ ࠺ ࡞ 㑐 ㅪ ⺰ ᢥ ᢙ ࡐࠬ࠲࡯㒰ߊ㧕 1/2 • • n-gram – Noisy Channel Models – – • – – 2/2 • PLSI LDA Probabilisitic LSI Latent Dirichlet Allocation UM DM Unigram Mixtures Diri

                          • トピックモデルで単語の分散表現 - 理論編 - scouty AI LAB

                            こんにちは。代表の島田です。 最近はDeepLearningがホットなキーワードになっていますが、トピックモデルという自然言語処理における手法も、少し前に注目を集めました。聞いたことはあるけど何なのかわからない、という方のために、今回はトピックモデルに関して説明します。 Pythonなどの言語ではライブラリが利用できますが、トピックモデルなどの原理を知っておくことでパラメータチューニングが思いのままにできるようになります。 LDAやトピックモデルについては最新の技術!というわけではないので他にも解説記事があると思いますが、今回は「流行りの単語がとりあえず何なのか知る」ということを目的に、前半は機械学習エンジニアではない方にもわかりやすく解説しようと思います。 モチベーション 単語をベクトルで表したい! 自然言語データを使ったレコメンドエンジンの構築やテキストの分類などで、単語をクラスタリン

                            • 自然言語処理研究会 - tsubosakaの日記

                              id:nokunoさんが主宰する第2回自然言語処理勉強会@東京で"Latent Dirichlet Allocation入門"というタイトルで発表してきました。 内容としては機械学習ライブラリMalletに実装されているLDAのマルチスレッド実装クラスのParallelTopicModelで使われているトピックモデルの技術を紹介するという話でした。 Latent Dirichlet Allocation入門View more presentations from tsubosaka. 本当は文章検索への応用とかの話もしたかったのですが準備に時間が足りず断念

                                自然言語処理研究会 - tsubosakaの日記
                              • トピックモデルの評価指標 Perplexity とは何なのか?

                                『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料 http://topicmodel.connpass.com/event/27999/Read less

                                  トピックモデルの評価指標 Perplexity とは何なのか?
                                • トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)

                                  このシリーズのメインともいうべきLDA([Blei+ 2003])を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。 グラフィカルモデルは以下になります(左: LDA, 右(参考): 前回のUM)。   見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような

                                    トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)
                                  • David M. Blei

                                    Computer Science Department Princeton University Computer Science Room 419 35 Olden St Princeton, NJ 08540 609.258.9907 (P) 609.258.1771 (F) blei@cs.princeton.edu Topic Modeling Much of my research is in topic modeling, developing algorithms to uncover the hidden thematic structure of a collection of documents. These algorithms help us develop new ways to search, browse and summarize large

                                    • LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita

                                      はじめに この記事では pythonのライブラリの gensimの中のLDAのモデルを使ってフォローされたQiitaタグの関係からユーザーの嗜好を考えてみようということをやってみます。 トピックモデルやgensimを実際にデータと共に使ってみることでどんなものか見てみることを目的とします。これを入り口にしてトピックモデルを実際に使ってみたり、詳しく勉強をはじめるきっかけとなれば幸いです。 LDAのモデルの内部がどのように実装しているかにはあまりふれません。「どういうことが出来るのか」にフォーカスします。また、データの取得(スクレイピング他)も触れます。 データ取得(スクレイピング、API) データの成形 モデルへの適用 詳しく説明している記事もありましたのでこの記事を読まれた後に物足りなさを感じた方は読んで見るとよいかと思います。 数式をなるべく使わずにトピックモデルの解説にチャレンジ 図

                                        LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita
                                      • Gensim: topic modelling for humans

                                        ✔   Train large-scale semantic NLP models ✔   Represent text as semantic vectors ✔   Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t

                                        • トピックモデルシリーズ 2 NB(Naive Bayes)

                                          このシリーズははじめの2ステップ(NB→UM→LDA)がとっつきにくいですがそこまで理解すれば後のモデルの拡張はそんなに難しくは感じませんでした。そのためNBから順にしっかり理解することが重要と思います。またNBとUMは文書のトピックが与えられているかそうでないかの違いしかなく、BUGSコードは全く同一のまま動きます(Stanでは離散パラメータを含みますので多少面倒になります)。今回はNBの分かりやすい説明を試みたのち、実際にStanでの実装と結果を見ていきたいと思います。 はじめにこの記事の表記から。以下になっています。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。与えられているデータ(前回の記事の data1 の w.1)は以下の図のようになっています。 文書が1-100(M)まであり、その各文書に144(V)種類の単語のいずれかが出現しています。

                                            トピックモデルシリーズ 2 NB(Naive Bayes)
                                          • 20151221 public

                                            グリー開発本部 Meetup #2 ゲーム x 強化学習エンジニアリングで発表させていただいた際の資料です. 当日の発表では一部,こちら (https://www.slideshare.net/yukono1/ss-102843951) の内容は使っているので,合わせてご覧になっていただければと思います.

                                              20151221 public
                                            • (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足

                                              7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Measures を紹介してみた。発表資料はこちら。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.slideshare.net 論文では Stick Breaking Process と Polya Urn の2つでモデルを表現していたが、そのあとどうせ Gibbs s

                                                (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足
                                              • Mark Steyvers – Research of Mark Steyvers

                                                Department of Cognitive Sciences University of California, Irvine mark.steyvers@uci.edu Research Areas Learning & MemoryHow can we leverage large-scale data to analyze the learning trajectories across individuals and cognitive tasks? How do we develop computational models to explain what is learned when individuals improve a skill?Cognitive Skill Acquisition & TransferHow can we leverage large-sca

                                                • Topic modeling bibliography

                                                  Edoardo M. Airoldi, David M. Blei, Stephen E. Fienberg, Eric P. Xing. Mixed Membership Stochastic Blockmodels. JMLR (9) 2008 pp. 1981-2014. @article{airoldi2008mixed, author={Edoardo M. Airoldi and David M. Blei and Stephen E. Fienberg and Eric P. Xing}, title={Mixed Membership Stochastic Blockmodels}, journal={JMLR}, year={2008}, volume={9}, pages={1981-2014}, } David Andrzejewski, Xiaojin Zhu, M

                                                  • GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.
                                                    • Mark Steyvers – Research of Mark Steyvers

                                                      Department of Cognitive Sciences University of California, Irvine mark.steyvers@uci.edu Research Areas Learning & MemoryHow can we leverage large-scale data to analyze the learning trajectories across individuals and cognitive tasks? How do we develop computational models to explain what is learned when individuals improve a skill?Cognitive Skill Acquisition & TransferHow can we leverage large-sca

                                                      • Amazon.co.jp: トピックモデル (機械学習プロフェッショナルシリーズ): 岩田具治: 本

                                                          Amazon.co.jp: トピックモデル (機械学習プロフェッショナルシリーズ): 岩田具治: 本
                                                        • http://www.phontron.com/slides/nlp-programming-ja-07-topic.pdf

                                                          • http://www.mibel.cs.tsukuba.ac.jp/~sadamitsu/research/archive/ieice2005.pdf

                                                            � ������� ��������� ��������� "!$# %'&)(�* + �-, .0/ 13254 637 8:9;4<4 =?> @)A;4 BDCFEHGJILKNMPORQTSVUXWYORZD[]\PO^[FS`_aCbUcSdWQe\DQfGZD[hgiGjfGYI<kPWSmli_nGodlT\pjTSqQ rtsVuwvqxzyLsn{F|~}�|����N��{F��]�w�bvw��sF�wv��n�N{V�~�N��|����F�]vq�V��������������|~�n|~�X������� �t��n¡£¢e¤e¥i¦a§�¨ª©¬«e­¯®±°e²t«e­e³a´tµ�¶a·�¸~¹�º�«�­¼»�½�¾�¿Y¤tÀt«e­aÁ�¢t¤ÃÂVÄÆÅÇTÈ�«t­aÉËÊqÌtÀeÍ ÎaÏ ¥eÐ�®±ÑeÒ`½�Ê^ÓÕÔ×Ö�ØeÙ Ï

                                                            • 桂井 麻里衣 (Marie Katsurai)

                                                              学歴 博士(情報科学),2014年6月 北海道大学大学院情報科学研究科メディアネットワーク専攻 (短縮修了) 修士(情報科学),2012年3月 北海道大学大学院情報科学研究科メディアネットワーク専攻 学士(工学),2010年3月 北海道大学工学部情報エレクトロニクス学科メディアネットワークコース 北海道札幌南高等学校卒業,2006年3月 職歴 同志社大学理工学部インテリジェント情報工学科 准教授, 2021年4月〜現在 同志社大学理工学部インテリジェント情報工学科 助教, 2018年4月〜2021年3月 知的機構研究室(2020年4月から奥田先生と共同で運営しています) 数理統計学(2018年度〜,春学期) 応用数理統計学(2019年度〜,秋学期) 機械学習(2020年度〜,春学期) JavaプログラミングII(2018年度〜,秋学期) 情報工学概論I(2018年度〜,春学期) 情報工学概

                                                              • Sign in - Google Accounts

                                                                  Sign in - Google Accounts
                                                                • gensimとjanomeを用いた日本語トピック分析 - Qiita

                                                                  この記事の目的 ずいぶん昔、このトピック分析を用いたサービスの開発を行なっていました。 最近は全く関係のないことばかりやっていたので、最新のライブラリの使い方を学び直す際のアウトプットをすることが一つの目的。 もう一つは実際にトピック分析をサービスに導入するという観点で記事を書くことです。 なのでこの記事は簡単にトピック分析の手順についての解説と、要所要所で実際の導入において留意せねばならない点を解説できればと思います。 対象者 テキストマイニング初心者 トピック分析をサービスに導入することを検討する人 トピック分析をはじめる 手順の概要 トピック分析を始める前にいくつかの事前準備が必要となります。 環境設定 文章準備 文章分割 辞書データ作成 コーパス作成 LDAトピックモデル作成 LDAトピックを用いて文章のトピックを分析 基本的にはその他機械学習の手順と同じく、学習データを作成してモ

                                                                    gensimとjanomeを用いた日本語トピック分析 - Qiita
                                                                  • トピックモデルを操作 ~Interactive Topic Model~ - Qiita

                                                                    Interactive Topic Modelの実装、及びその結果 はじめに 自然言語処理の技術で、文書集合から内容を抽出する方法としてトピックモデルという考え方がある。 その中でも、トピック内で出現する単語を意図的に操作する方法として、Interactive Topic Modelというものが存在する。 そこで、本記事ではInteractive Topic Modelの実装とその効果の検証を行う。 手法 トピックモデルでは文書集合から、トピック(例えば、新聞記事には政治やスポーツなどのトピックが含まれていると推測される)が出現する確率、トピック分布$\theta$と、そのトピック内でどのような単語が出やすいか、単語分布$\phi$を推定する手法である。 トピックモデルの説明は、 http://qiita.com/GushiSnow/items/8156d440540b0a11dfe6 h

                                                                      トピックモデルを操作 ~Interactive Topic Model~ - Qiita
                                                                    • 機械学習関連情報をトピックモデルで分類する - Qiita

                                                                      機械学習関連情報の収集と分類(構想)の❷の部分に関連する記事です。 実際に調べた時点から数か月ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 また、満足できる結果になっていないことをあらかじめお断りしておきましょう。 Qiita にも Python にも慣れていないのでいろいろおかしな記述があるかもしれませんが、そういうところはコメントいただければありがたいです。 今回の記事で説明する処理は下記のような流れになっています。 ❶サイトのクロウル クロウルした文書(article)を bookmarks.crawled ディレクトリ配下に置きます。 ↓ ❷articleのPythonオブジェクト化 文書(article)単位で Pythonオブジェクト化します。 ↓ ❸コーパスのPythonオブジェクト化 文書群全体をコーパスとしてPythonオブジェクト化します。 ↓ ❹ト

                                                                        機械学習関連情報をトピックモデルで分類する - Qiita
                                                                      1