LDAの人気記事 255件 - はてなブックマーク

1 - 40 件 / 255件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

LDAの検索結果1 - 40 件 / 255件

B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常
- 396 users
- pira-nino.hatenablog.com
- テクノロジー
- 2018/07/30
1. 本Part概要前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。このグループ1つ1つを「トピック」と呼びます。例えば、大量のニュース記事にLDAを適用する例を考えます。ニュース記事データにLDAを適用した例 LDAでは「各トピック（トピック数は予め指定）における各単語の所属確率」が算出されます。理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法との理解で大丈夫です。よく勘違いされることとして以下の2点を示します。トピック数（いくつ
- 機械学習
- python
- あとで読む
- 自然言語処理
- machinelearning
- 学習
- 歌詞
- AI
- LDA
- 分析
プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
- 345 users
- y-uti.hatenablog.jp
- テクノロジー
- 2014/06/22
勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基本的なことがらについて説明しました。その資料を公開します。プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。
機械学習を用いた東西日本の境界線決定
- 268 users
- www.slideshare.net/slideshow
- テクノロジー
- 2015/07/29
東日本と西日本の境界線を機械学習で引いてみました．セキュリティ分野の M1 が機械学習をお勉強する際に，モチベ維持のため面白そうなテーマを選んだらこうなった！というもの．なので本体の論文とか，学術的貢献とかはないです...が，そういった視点から見ていただけるのはとても嬉しいです！市町村単位，藩単位など，県境以外で境界線を引けないか？というコメントを多くいただいていますので，今後そういった方面への掘り下げもやっていきたいです．Read less
ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来 | TheWave
- 238 users
- thewave.jp
- 学び
- 2015/05/25
ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向を
- 機械学習
- AI
- 人工知能
- 自然言語処理
- NLP
- あとで読む
- LDA
- CogLing
- ことば
- ML
ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ
- 175 users
- yamitzky.hatenablog.com
- テクノロジー
- 2014/03/11
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
機械の代わりに人間が学習入門
- 169 users
- www.slideshare.net/shuyo
- テクノロジー
- 2011/01/16
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...Shuyo Nakatani
Statistical Semantic入門 ~分布仮説からword2vecまで~
- 159 users
- www.slideshare.net/slideshow
- テクノロジー
- 2014/02/06
1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio
- word2vec
- NLP
- 自然言語処理
- 機械学習
- statistics
- Machine Learning
- machinelearning
- PFI
- research
- 統計
ノンパラベイズ入門の入門
- 130 users
- www.slideshare.net/shuyo
- テクノロジー
- 2012/11/09
機械学習×プログラミング勉強会 vol.2 での発表資料です。ベイズの何が嬉しいか、ノンパラベイズの何が嬉しいかを数式を使わず語ります。
- 機械学習
- nlp
- bayesian
- LDA
- ベイズ
- ml
- machinelearning
- 入門
- bayes
- statistics
PyMCがあれば，ベイズ推定でもう泣いたりなんかしない
- 117 users
- www.slideshare.net/slideshow
- テクノロジー
- 2014/08/02
ベイズ推定の基本とPyMCによる簡単な実装例です．関連資料： https://github.com/scipy-japan/tokyo-scipy/tree/master/006/shima__shimaRead less
- python
- ベイズ
- 機械学習
- statistics
- pymc
- MCMC
- ベイジアン
- 統計
- あとで読む
http://blog.yuku-t.com/entry/20110623/1308810518
- 116 users
- blog.yuku-t.com
- テクノロジー
- 2011/06/23
LDA入門
- 106 users
- www.slideshare.net/slideshow
- テクノロジー
- 2010/09/26
IBIS 2021 https://ibisml.org/ibis2021/ における最適輸送についてのチュートリアルスライドです。『最適輸送の理論とアルゴリズム』好評発売中！ https://www.amazon.co.jp/dp/4065305144 Speakerdeck にもアップロードしました: https://speakerdeck.com/joisino/zui-shi-shu-song-ru-men 最適輸送問題（Wasserstein 距離）を解く方法についてのさまざまなアプローチ・アルゴリズムを紹介します。線形計画を使った定式化の基礎からはじめて、以下の五つのアルゴリズムを紹介します。 1. ネットワークシンプレックス法 2. ハンガリアン法 3. Sinkhorn アルゴリズム 4. ニューラルネットワークによる推定 5. スライス法このスライドは第三回 0x-
- LDA
- 機械学習
- 自然言語処理
- NLP
- slide
- アルゴリズム
- clustering
- ml
- machinelearning
【機械学習】Yahoo Newsの記事をMLlibのトピックモデル(LDA)でクラスタリングする。 - Qiita
- 83 users
- qiita.com/kenmatsu4
- テクノロジー
- 2015/09/20
Sparkシリーズ第３弾の記事です。MLlibのLDAを使ってYahoo Newsの記事をトピックモデル(LDA:Latent Dirichlet allocation)でクラスタリングしてみます。第一弾【機械学習】iPython NotebookでSparkを起動させてMLlibを試す http://qiita.com/kenmatsu4/items/00ad151e857d546a97c3 第二弾【機械学習】Spark MLlibをPythonで動かしてレコメンデーションしてみる http://qiita.com/kenmatsu4/items/42fa2f17865f7914688d 0. 環境 OS: Mac OSX Yosemite 10.10.3 Spark: spark-1.5.0-bin-hadoop2.6 Python: 2.7.10 |Anaconda 2.2.0
- python
- spark
- 機械学習
- MLlib
- Programming
- machinelearning
- LDA
- あとで読む
- development
自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita
- 81 users
- qiita.com/icoxfog417
- テクノロジー
- 2017/04/28
自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-よりまた、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ
テキストからの評判分析と機械学習
- 81 users
- www.iip.ist.i.kyoto-u.ac.jp
- テクノロジー
- 2009/05/19
テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン
- nlp
- 機械学習
- 自然言語処理
- reputation
- machine learning
- pdf
- machinelearning
- mining
- CGM
- algorithm
機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml - 木曜不足
- 80 users
- shuyo.hatenablog.com
- テクノロジー
- 2012/11/12
11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加＆発表。主催の愛甲さん、参加者＆発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼をいただいた時、言語判定の話をすればいいか〜とか考えて気楽に引き受けちゃったのだが、あれを20分で話すと痛い目にあうと広島方面で学んだことを思い出し。じゃあ、テキストマイニング始めました的なことでも〜と構成を考えてみたのだが、データの前処理の話だけで20分使い果たして機械学習出てこなさそう。しかも発表順で中谷の次があんちべ先生の番。後ろに専門家がいるのにテキストマイニングの真似事とかしゃべってたら、やばい。そこで、勉強会タイトルの「〜×プログラミング」にあわないのは承知しつつ、社内勉強会でやったノンパラベイズ入門的な話
Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ
- 76 users
- developer.smartnews.be
- テクノロジー
- 2013/08/19
株式会社ゴクロの中路です。以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。一方、LDAの場合は、東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。
Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
- 74 users
- sucrose.hatenablog.com
- テクノロジー
- 2013/10/29
gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。コーパスの作り方以下の公式の例で説明しますこの例ではリスト内のそれぞれの要素が1つの文書となります
- Python
- 自然言語処理
- NLP
- LDA
- 機械学習
- トピックモデル
- Corpus
- ライブラリ
- tech
潜在的意味インデキシング（LSI）徹底入門 - あらびき日記
- 71 users
- abicky.hatenablog.jp
- テクノロジー
- 2012/03/26
この記事は abicky.net の潜在的意味インデキシング（LSI）徹底入門に移行しました
- LSI
- nlp
- R
- machine learning
- matrix
- SVD
- LDA
- slab
- machinelearning
Latent Dirichlet Allocation ゆるふわ入門 - あらびき日記
- 70 users
- abicky.hatenablog.jp
- テクノロジー
- 2013/03/12
この記事は abicky.net の Latent Dirichlet Allocation (LDA) ゆるふわ入門に移行しました
H24:Introduction to Statistical Topic Models
- 67 users
- www.ism.ac.jp/~daichi
- テクノロジー
- 2013/01/16
統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献「私のブックマーク: Latent Topic Model (潜在的トピックモデ
小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
- 65 users
- sucrose.hatenablog.com
- テクノロジー
- 2013/04/27
小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という
- python
- LDA
- 自然言語処理
- データ解析
- 調査
- Web小説
- NLP
教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
- 61 users
- yamitzky.hatenablog.com
- テクノロジー
- 2014/02/17
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
- LDA
- 機械学習
- nlp
- 自然言語処理
- twitter
- Python
- MachineLearning
- research
猫でも分かるVariational AutoEncoder
- 61 users
- www.slideshare.net/slideshow
- テクノロジー
- 2016/08/23
生成モデルとかをあまり知らない人にもなるべく分かりやすい説明を心がけたVariational AutoEncoderのスライド実装と簡単な補足は以下を参照 http://sh-tatsuno.com/blog/index.php/2016/07/30/variationalautoencoder/Read less
確率的潜在変数モデル最前線
- 56 users
- www.slideshare.net/issei_sato
- テクノロジー
- 2012/03/04
introductino to persistent homology and topological data analysis
- 機械学習
- lda
- NLP
- ML
- 統計
- slideshare
Latent Dirichlet Allocations の Python 実装 - 木曜不足
- 55 users
- shuyo.hatenablog.com
- テクノロジー
- 2011/02/14
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
- LDA
- python
- nlp
- 機械学習
Statistical Semantics入門の発表をしました
- 48 users
- blog.unnono.net
- 学び
- 2014/02/11
先週のPFIセミナーで、Statistical Semantics入門という発表をしました。主に分布仮説をベースにした、単語の意味を文脈の分布で表現する研究を纏めました。 LSIから始まって、PLSI、LDAと続く言語モデル系、NMFなどの行列分解系、そしてNNLM、RNNLMと来て昨年流行したニューラルネット系の3つでまとめるという形をとっています。あまり専門的になりすぎず、過去からの歴史や流れを踏まえ、一方で実用面や研究テーマのココロ、問題意識を重視するような内容になるように心がけたつもりではあります。当初、他の「いわゆる意味論」との比較みたいなスライドもあったのですが、変なコト言うと刺されると思ったので消しましたｗところで、応用の観点でこれらの話をどう考えているか、というような点について触れるのを忘れたな、と思ったのでこちらに書いてみます。基本的に私見ですが。私自身は、単
自然言語処理シリーズ 8 トピックモデルによる統計的潜在意味解析 | コロナ社
- 48 users
- www.coronasha.co.jp
- テクノロジー
- 2015/02/10
大量のデータの背後にある潜在的な情報を抽出する技術として，トピックモデルと呼ばれる統計モデルの研究が近年注目を集めている。本書はこれについて，言語処理という具体的な問題に対して，その理論と応用をわかりやすく解説する。 0. 本書の使い方 0.1　本書の読み方 0.2　各章と付録の説明 0.3　本書で用いる記号など 1. 統計的潜在意味解析とは 1.1 　潜在的意味・トピックと潜在的共起性 1.2 　潜在意味解析の歴史 1.3 　統計的潜在意味解析とデータ駆動インテリジェンスの創発 1.4　確率的潜在変数モデル 1.5 　確率的生成モデルとグラフィカルモデル 2. Latent Dirichlet Allocation 2.1　概要 2.2 　多項分布とDirichlet分布 2.3 　LDAの生成過程 2.4　 LDAの幾何学的解釈 2.5　 LDAの応用例 3. 学習アルゴリズ
- NLP
- LDA
- 書籍
- book
- あとで読む
numpyでのKLダイバージェンスとJensen-Shannonダイバージェンスの実装 | Vingow 開発チームブログ
- 48 users
- blog.vingow.com
- テクノロジー
- 2014/04/10
scipyには距離を測るための手続きが用意されています(scipy.spatial.distance)。ユークリッド距離やcosine距離(cosine類似度)などもあるのですが、確率分布間の距離とも言うべきKLダイバージェンスやJensen-Shannonダイバージェンスなどは実装されていません。ということで、実装してみました。実装コードだけ見たいという場合は、最後まで読み飛ばしてください。 KLダイバージェンスとJensen-Shannonダイバージェンスについて KLダイバージェンス(カルバック・ライブラー情報量; Kullback–Leibler divergence; 相対エントロピー)とは、分布と分布の差異の大きさ(≠距離)を測るものです。分布と分布があったとき、のに対するKLダイバージェンスはで定義されます。また、クロスエントロピーを使ってと定義することもできます。クロ
- 機械学習
- python
- numpy
- tech
- コード
- development
Gensim: topic modelling for humans
- 47 users
- radimrehurek.com
- テクノロジー
- 2011/11/27
✔ Train large-scale semantic NLP models ✔ Represent text as semantic vectors ✔ Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t
- python
- nlp
- machinelearning
- lda
- 自然言語処理
- statistics
- 機械学習
- gensim
論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介 - yasuhisa's blog
- 47 users
- www.yasuhisay.info
- 暮らし
- 2010/12/07
100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル形態素解析、分かち書きノンパラベイズその他クラスタリング最適化教師なし学習今年の1月1日から始めた論文100本ノックですが、年末ギリギリだと書けるか分からなくなりそうなので、そろそろ振り替えります。3月くらいまでは読んだ論文の一覧を2010/12/31の日記のところに書いてたんですが、研究室localな勉強会で紹介された論文は(OKが出ないと)外で書けないという都合があったので削除しましたが、プライベートはてなグループのほうで続いています。12/7現在で76本だそうです。本数のペースは以下のグラフで(実は)公開されています。 2月から3月がほとんど止まってますが、論文読むというよりディリクレ過程の勉強とか
- 論文
- NLP
- 研究
- paper
- LDA
- science
- 学問
- research
LDAとそれでニュース記事レコメンドを作った。 - tdualのブログ
- 46 users
- tdual.hatenablog.com
- テクノロジー
- 2018/04/09
筆不精なのでこのブログも放置気味だったのですが、まあ流石にそろそろ少しずつでも今まで貯めた込んだものを書き残した方が良い気がしてきた。なので、これからなんか書いていきます。最初はDeep Learningの記事にしようとも思ったけど、社内勉強会でLDAをまとめてたのを思い出したのでまずはこれから書こうと思います。注意書き理論 1.LDAの前に「トピックモデル」とは 2.LDAとは*2 3.LDAで使う確率分布カテゴリカル分布（マルチヌーイ分布） Dirichlet(ディリクレ)分布 4.確率的生成モデル 5.グラフィカルモデル表現 6.LDAの解釈 7.経験ベイズ(Empirical Bayes) 8.変分ベイズ法(Variational Bayesian methods) 9.平均場近似(Mean field approximation) 10.変分下限とKullback-Le
- トピックモデル
- lda
- recommendation
- python
- NLP
- あとで読む
- news
【Python】自然言語処理でラーメン屋を分類してみる - Qiita
- 46 users
- qiita.com/naotaka1128
- テクノロジー
- 2017/01/15
はじめにこんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで好きなラーメン屋に似たラーメン屋を見つける手法を構築した方法統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。ラーメン屋A： [0.75, 0.15, 0.10] ラーメン屋B： [0.60, 0.15, 0.15] ラーメン屋C： [0.0
- 自然言語処理
- python
- lda
- NLP
- 分析
- 機械学習
- Qiita
- データ
トピックモデルを用いた潜在ファッション嗜好の推定
- 45 users
- www.slideshare.net/slideshow
- テクノロジー
- 2015/11/11
2013年8月10～11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。 2日目 2-6.ゼロ切断・過剰モデルゼロがないデータや、0が多すぎるデータを分析する方法を解説します。サイト作ってます http://logics-of-blue.com/
すべてがMFになる - Fire and Motion
- 42 users
- harapon.hatenablog.com
- 学び
- 2014/09/06
すべてがFになる，映像化するみたいですね．犀川創平も西之園萌絵も配役がイメージと違って一部で話題になっていました．さて，最近テンソル分解を使った論文をよく見かけるのですが，いまだにきちんと整理できずにいます．テンソルかわいいよ，テンソル．そこで，まずは行列分解(matrix factorization, matrix decomposition)を整理してみようと思います．行列の分解手法というと線形代数的な観点からは簡単に思いつくだけでも固有値分解 LU分解コレスキー分解などがありますが，これらは分解前の行列と分解後の行列が一致する(たとえばA=LU)方法です．一方で，機械学習やデータマイニング界隈（特にレコメンデーション等）で出てくる行列分解というのは，大規模データや関係性データの中から低ランクの構造を抽出することや次元圧縮を目的としています．なので，正確に言うならば，行列分解と
- matrix factorization
株式会社ALBERT（レコメンドエンジン）
- 41 users
- www.accenture.com
- テクノロジー
- 2015/09/15
データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
トピックモデルを俯瞰して学ぶ - ひつじの〜と備忘録
- 41 users
- cl-hair.hatenablog.com
- テクノロジー
- 2019/12/20
本記事は，自然言語処理 Advent Calendar 2019 - Qiita です．はじめに本記事ではトピックモデルと呼ばれるモデル・分野の中で最も有名なLatent Dirchlet Allocation, 通称LDA*1 とその周りのトピックモデルに関して,どんな資料があるのか？,どういった研究があるのか? といったことに主眼をおいてトピックモデルの研究とかを昔していた私の独断と偏見によるリストアップを行いました. 私の頭は2017年くらいで止まっているので、間違っている点があったり、今の主流とは異なる可能性もありますが、暖かくご指摘いただけると助かります. Latent Dirchlet Allocation[Blei+,03]を始めとするトピックモデルを学ぶに当たって何が参考になるのかどういった研究があるのか？実際にどうやって使うのか？(まだ出来てないよ・・・) と
トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む
- 40 users
- hoxo-m.hatenablog.com
- テクノロジー
- 2016/01/22
LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。トピックモデルは確率モデルであるため、Perplexity の定義は明確です。一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。本記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。例えば、トピックが { farmers, farm, food
Latent Dirichlet Allocations(LDA) の実装について - 木曜不足
- 38 users
- shuyo.hatenablog.com
- テクノロジー
- 2011/02/15
昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。 LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。ただし [Blei+ 2003] で "LDA" としているのはトピック-単語分布がただの多項分布(事前分布無し)のもの。"LDA" としてよく目にするトピック-単語多項分布にディリクレ事前分布が入ったものは "Smoothed LDA" として記載されている(確かにβでスムージングしているのと等価)。今回実装した LDA も後者の "Smoothed LDA"。その LDA はこんな感じ。αとβはハイパーパラメータだから、チビ黒丸で書いて欲しいんだけどね。 (図は Wikipedia-en の LD
- LDA
- ml
- machine learning
- nlp
- 機械学習
- 自然言語処理
plda - Google Code
- 38 users
- code.google.com
- テクノロジー
- 2009/05/18
Code Archive Skip to content Google About Google Privacy Terms
- LDA
- nlp
- c++
- algorithm
- ML
- machinelearning
- google
BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
- 37 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2023/02/21
こんにちは。研究開発部の青見 (@nersonu) です。そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次目次 BERTopic とは文書の埋め込み文書のクラスタリングトピック表現手法の概要まとめ BERTopic を試してみるインストールモデルのロードクラスタリングの実行結果の確認トピックごとの単語の重要度トピックごとの文書を眺めてみる次元削減手法・クラスタリング手法の変更使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。トピックモデルは、文書集合から「トピック」は何が含まれ