mahler-5のブックマーク / 2019年4月11日

mahler-5 id:mahler-5

2019年4月11日のブックマーク (4件)

機械学習_潜在意味解析_理論編 | DevelopersIO
概要こんにちは、データインテグレーション部のyoshimです。この記事は機械学習アドベントカレンダー20日目のものとなります。今回は「潜在意味解析(LSA)」という手法を説明してみようと思います。今回のご説明の流れとして、「潜在意味解析(LSA)」は「トピックモデル」という概念を背景としているものなので、まずは「トピックモデル」についてご説明しようと思います。その後に「潜在意味解析(LSA)」についてご説明し、「潜在意味解析(LSA)」を発展させたアルゴリズムである「確率的潜在意味解析(pLSA)」、「潜在ディリクレ割り当て（LDA）」、LDAでよく利用されるギブスサンプリングというサンプリング手法、をご紹介しようと思います。目次 1.トピックモデルとは 2.潜在意味解析(LSA)とは 3.アルゴリズムの流れ 4.確率的潜在意味解析（pLSA） 5.ギブスサンプリング 6.潜在
mahler-5 2019/04/11
LDA

アルゴリズム

トピックモデル
リンク
Rによるトピックモデル―AKB総選挙2017上位7人のコメントを3つのトピックに分類してみた結果― - What a Wonderful World
mahler-5 2019/04/11
トピックモデル

R

LDA
リンク
トピックモデル - 驚異のアニヲタ社会復帰の予備
Latent Dirichlet allocation(LDA)というなかなか面白そうなテキストマイニングを教えてもらったのでやってみる。最近のラノベのトピックは異世界物が多い。というかここ数年は、ツンデレ、空から女の子が降ってくるハーレム物から、難聴系・鈍感主人公がハーレムを築くような物へ移り変わっているような気がするが、物語自体のトピックを推定・分類して、流行り廃りをDynamic Topin Model(DTM)を用いて解析して遊んでみたらしい。結果としては異世界でオレTSUEEEEEEEEE!!物が流行っているという結果だった。オレらの感触と全く同じようにデータが物語っているので、このビッグウェーブに乗り遅れないようにオレも明日からラノベ書くわ!! Rではlda, topicmodelsパッケージが使えるようで、お互いに互換性のあるクラスのようである。こちらでldaを使っていた
mahler-5 2019/04/11
トピックモデル

LDA

R
リンク
[R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita
はじめにテキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。理論的な部分はこちらの本。先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。トピックモデルとはテキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす
mahler-5 2019/04/11
R

purrr

LDA

トピックモデル
リンク
- 2019年4月16日
- 2019年4月11日
- 2019年4月9日