LDAの人気記事 25件 - はてなブックマーク

1 - 25 件 / 25件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

LDAの検索結果1 - 25 件 / 25件

B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常
- 396 users
- pira-nino.hatenablog.com
- テクノロジー
- 2018/07/30
1. 本Part概要前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。このグループ1つ1つを「トピック」と呼びます。例えば、大量のニュース記事にLDAを適用する例を考えます。ニュース記事データにLDAを適用した例 LDAでは「各トピック（トピック数は予め指定）における各単語の所属確率」が算出されます。理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法との理解で大丈夫です。よく勘違いされることとして以下の2点を示します。トピック数（いくつ
- 機械学習
- python
- あとで読む
- 自然言語処理
- machinelearning
- 学習
- 歌詞
- AI
- LDA
- 分析
プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
- 345 users
- y-uti.hatenablog.jp
- テクノロジー
- 2014/06/22
勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基本的なことがらについて説明しました。その資料を公開します。プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。
機械学習を用いた東西日本の境界線決定
- 268 users
- www.slideshare.net/slideshow
- テクノロジー
- 2015/07/29
東日本と西日本の境界線を機械学習で引いてみました．セキュリティ分野の M1 が機械学習をお勉強する際に，モチベ維持のため面白そうなテーマを選んだらこうなった！というもの．なので本体の論文とか，学術的貢献とかはないです...が，そういった視点から見ていただけるのはとても嬉しいです！市町村単位，藩単位など，県境以外で境界線を引けないか？というコメントを多くいただいていますので，今後そういった方面への掘り下げもやっていきたいです．Read less
ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来 | TheWave
- 238 users
- thewave.jp
- 学び
- 2015/05/25
ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向を
- 機械学習
- AI
- 人工知能
- 自然言語処理
- NLP
- あとで読む
- LDA
- CogLing
- ことば
- ML
ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ
- 175 users
- yamitzky.hatenablog.com
- テクノロジー
- 2014/03/11
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
機械の代わりに人間が学習入門
- 169 users
- www.slideshare.net/shuyo
- テクノロジー
- 2011/01/16
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...Shuyo Nakatani
Statistical Semantic入門 ~分布仮説からword2vecまで~
- 159 users
- www.slideshare.net/slideshow
- テクノロジー
- 2014/02/06
1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio
- word2vec
- NLP
- 自然言語処理
- 機械学習
- statistics
- Machine Learning
- machinelearning
- PFI
- research
- 統計
ノンパラベイズ入門の入門
- 130 users
- www.slideshare.net/shuyo
- テクノロジー
- 2012/11/09
機械学習×プログラミング勉強会 vol.2 での発表資料です。ベイズの何が嬉しいか、ノンパラベイズの何が嬉しいかを数式を使わず語ります。
- 機械学習
- nlp
- bayesian
- LDA
- ベイズ
- ml
- machinelearning
- 入門
- bayes
- statistics
PyMCがあれば，ベイズ推定でもう泣いたりなんかしない
- 117 users
- www.slideshare.net/slideshow
- テクノロジー
- 2014/08/02
ベイズ推定の基本とPyMCによる簡単な実装例です．関連資料： https://github.com/scipy-japan/tokyo-scipy/tree/master/006/shima__shimaRead less
- python
- ベイズ
- 機械学習
- statistics
- pymc
- MCMC
- ベイジアン
- 統計
- あとで読む
http://blog.yuku-t.com/entry/20110623/1308810518
- 116 users
- blog.yuku-t.com
- テクノロジー
- 2011/06/23
LDA入門
- 106 users
- www.slideshare.net/slideshow
- テクノロジー
- 2010/09/26
IBIS 2021 https://ibisml.org/ibis2021/ における最適輸送についてのチュートリアルスライドです。『最適輸送の理論とアルゴリズム』好評発売中！ https://www.amazon.co.jp/dp/4065305144 Speakerdeck にもアップロードしました: https://speakerdeck.com/joisino/zui-shi-shu-song-ru-men 最適輸送問題（Wasserstein 距離）を解く方法についてのさまざまなアプローチ・アルゴリズムを紹介します。線形計画を使った定式化の基礎からはじめて、以下の五つのアルゴリズムを紹介します。 1. ネットワークシンプレックス法 2. ハンガリアン法 3. Sinkhorn アルゴリズム 4. ニューラルネットワークによる推定 5. スライス法このスライドは第三回 0x-
- LDA
- 機械学習
- 自然言語処理
- NLP
- slide
- アルゴリズム
- clustering
- ml
- machinelearning
【機械学習】Yahoo Newsの記事をMLlibのトピックモデル(LDA)でクラスタリングする。 - Qiita
- 83 users
- qiita.com/kenmatsu4
- テクノロジー
- 2015/09/20
Sparkシリーズ第３弾の記事です。MLlibのLDAを使ってYahoo Newsの記事をトピックモデル(LDA:Latent Dirichlet allocation)でクラスタリングしてみます。第一弾【機械学習】iPython NotebookでSparkを起動させてMLlibを試す http://qiita.com/kenmatsu4/items/00ad151e857d546a97c3 第二弾【機械学習】Spark MLlibをPythonで動かしてレコメンデーションしてみる http://qiita.com/kenmatsu4/items/42fa2f17865f7914688d 0. 環境 OS: Mac OSX Yosemite 10.10.3 Spark: spark-1.5.0-bin-hadoop2.6 Python: 2.7.10 |Anaconda 2.2.0
- python
- spark
- 機械学習
- MLlib
- Programming
- machinelearning
- LDA
- あとで読む
- development
自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita
- 81 users
- qiita.com/icoxfog417
- テクノロジー
- 2017/04/28
自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-よりまた、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ
テキストからの評判分析と機械学習
- 81 users
- www.iip.ist.i.kyoto-u.ac.jp
- テクノロジー
- 2009/05/19
テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン
- nlp
- 機械学習
- 自然言語処理
- reputation
- machine learning
- pdf
- machinelearning
- mining
- CGM
- algorithm
機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml - 木曜不足
- 80 users
- shuyo.hatenablog.com
- テクノロジー
- 2012/11/12
11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加＆発表。主催の愛甲さん、参加者＆発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼をいただいた時、言語判定の話をすればいいか〜とか考えて気楽に引き受けちゃったのだが、あれを20分で話すと痛い目にあうと広島方面で学んだことを思い出し。じゃあ、テキストマイニング始めました的なことでも〜と構成を考えてみたのだが、データの前処理の話だけで20分使い果たして機械学習出てこなさそう。しかも発表順で中谷の次があんちべ先生の番。後ろに専門家がいるのにテキストマイニングの真似事とかしゃべってたら、やばい。そこで、勉強会タイトルの「〜×プログラミング」にあわないのは承知しつつ、社内勉強会でやったノンパラベイズ入門的な話
Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ
- 76 users
- developer.smartnews.be
- テクノロジー
- 2013/08/19
株式会社ゴクロの中路です。以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。一方、LDAの場合は、東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。
Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
- 74 users
- sucrose.hatenablog.com
- テクノロジー
- 2013/10/29
gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。コーパスの作り方以下の公式の例で説明しますこの例ではリスト内のそれぞれの要素が1つの文書となります
- Python
- 自然言語処理
- NLP
- LDA
- 機械学習
- トピックモデル
- Corpus
- ライブラリ
- tech
潜在的意味インデキシング（LSI）徹底入門 - あらびき日記
- 71 users
- abicky.hatenablog.jp
- テクノロジー
- 2012/03/26
この記事は abicky.net の潜在的意味インデキシング（LSI）徹底入門に移行しました
- LSI
- nlp
- R
- machine learning
- matrix
- SVD
- LDA
- slab
- machinelearning
Latent Dirichlet Allocation ゆるふわ入門 - あらびき日記
- 70 users
- abicky.hatenablog.jp
- テクノロジー
- 2013/03/12
この記事は abicky.net の Latent Dirichlet Allocation (LDA) ゆるふわ入門に移行しました
H24:Introduction to Statistical Topic Models
- 67 users
- www.ism.ac.jp/~daichi
- テクノロジー
- 2013/01/16
統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献「私のブックマーク: Latent Topic Model (潜在的トピックモデ
小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
- 65 users
- sucrose.hatenablog.com
- テクノロジー
- 2013/04/27
小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という
- python
- LDA
- 自然言語処理
- データ解析
- 調査
- Web小説
- NLP
教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
- 61 users
- yamitzky.hatenablog.com
- テクノロジー
- 2014/02/17
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
- LDA
- 機械学習
- nlp
- 自然言語処理
- twitter
- Python
- MachineLearning
- research
猫でも分かるVariational AutoEncoder
- 61 users
- www.slideshare.net/slideshow
- テクノロジー
- 2016/08/23
生成モデルとかをあまり知らない人にもなるべく分かりやすい説明を心がけたVariational AutoEncoderのスライド実装と簡単な補足は以下を参照 http://sh-tatsuno.com/blog/index.php/2016/07/30/variationalautoencoder/Read less
確率的潜在変数モデル最前線
- 56 users
- www.slideshare.net/issei_sato
- テクノロジー
- 2012/03/04
introductino to persistent homology and topological data analysis
- 機械学習
- lda
- NLP
- ML
- 統計
- slideshare
Latent Dirichlet Allocations の Python 実装 - 木曜不足
- 55 users
- shuyo.hatenablog.com
- テクノロジー
- 2011/02/14
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
- LDA
- python
- nlp
- 機械学習