[B! lda] yukimori_726のブックマーク

yukimori_726 id:yukimori_726

ldaに関するyukimori_726のブックマーク (10)

LDAによるトピックモデル with gensim ~ Qiitaのタグからユーザーの嗜好を考える ~ - Qiita
はじめにこの記事では pythonのライブラリの gensimの中のLDAのモデルを使ってフォローされたQiitaタグの関係からユーザーの嗜好を考えてみようということをやってみます。トピックモデルやgensimを実際にデータと共に使ってみることでどんなものか見てみることを目的とします。これを入り口にしてトピックモデルを実際に使ってみたり、詳しく勉強をはじめるきっかけとなれば幸いです。 LDAのモデルの内部がどのように実装しているかにはあまりふれません。「どういうことが出来るのか」にフォーカスします。また、データの取得(スクレイピング他）も触れます。データ取得(スクレイピング、API) データの成形モデルへの適用詳しく説明している記事もありましたのでこの記事を読まれた後に物足りなさを感じた方は読んで見るとよいかと思います。数式をなるべく使わずにトピックモデルの解説にチャレンジ図
yukimori_726 2016/09/21
lda

topicmodel
リンク
tsubosakaの日記
情報検索において検索手法の結果を評価する方法の手法の一つにInterleavingという方法がある。最近その辺についてちょっと読んでいたのでまとめておく。検索エンジンにおいては何らかのRanking Function(http://en.wikipedia.org/wiki/Ranking_function)を用いて、与えられたクエリに対する検索結果を並び替える。例えば"餃子レシピ"というクエリでGoogleで今検索したところ 1. http://cookpad.com/recipe/316319 (☆ほっぺが落ちちゃう　餃子☆) 2. http://cookpad.com/category/836 (餃子・シュウマイレシピ 306品) 3. http://matome.naver.jp/odai/2133424266153597701 (絶品餃子！！肉汁がやばい究極のギョーザのレ
yukimori_726 2016/05/13
codereading

classifier

arow

java

lda
リンク
Pystanで自然言語処理　scikit.learnのdatasetで試す - xiangze's sparse blog
scikit.learnは様々な機械学習のアルゴリズムのみならず、データセットも充実しています。stanのpythonラッパーpystanでこれを利用し、Stan manualのLDAのコードの性能を評価することを行いました。 20 newsgroupsというデータセットは名前の通りUsenetの20のカテゴリー、２０００0の文書(英語)からなるデータセットです。これをsklearn.feature_extraction.text のCounterVectizerを用いて単語数をカウントした行列形式に変換し、Stanのコードに入力します。コードは以下のようになります。行列は疎行列形式で保存されているのでこれを変換し、またStanの添え字形式である1始まりに変換します。beroberoさんが高速化のために書かれたコード(あらかじめ計算しておいた各wordの頻度を用いて尤度を足し合わせる
yukimori_726 2016/05/13
nlp

dataset

lda

classifier
リンク
LDAで日本語PDF分析 - old school magic
概要最近、LDAを(pythonで)実装する機会がありました。サンプリングを用いる実装だったので、Python等のスクリプト言語だとどうしても計算時間が問題になってしまいます(特に大規模なデータに対して)。せっかくなのでコンパイル系の言語であるJavaで実装し直し、ついでに日本語PDFファイル(というか日本語論文)をLDAで分析してみました。全体的な手順としては、 PDFからテキスト抽出正規表現で日本語を抽出 Mecabで形態素解析特徴語(今回は名詞)の選択ストップワードの除去 LDAで分析となっています。分析に使ったLDAの実装やスクリプトはGithubにあります。 LDAのJava実装 https://github.com/breakbee/LDA4J PDF分析のスクリプト https://github.com/breakbee/PDFAnalysis Python
yukimori_726 2016/04/06
lda

jubatus

text

classification
リンク
2. LDAによるトピック解析 - どこでも見れるメモ帳
はじめに連載記事はてブ記事を用いた興味分析の2つ目の記事です．ここでは，はてブに登録したWebページ全てに対して，LDA*1によるトピック解析を行い，はてブに登録している内容のトピック（話題，興味の対象）を分析します．実装の前提として，データの準備（はてブからブログ記事取得・形態素解析）が完了していることを想定しています．トピック解析とは？トピック解析とは，入力データのトピック（話題，分野など，大ざっぱな「意味」）を推定することです．データの抽象化とも言えると思います．クラスタリング*2におけるクラスの推定，次元圧縮*3における基底の推定などと非常に似ています．本記事におけるトピック解析とは，入力のはてブ記事群におけるジャンル推定を意味します．トピック解析の詳細は，次のページ（PDF）が分かりやすく，オススメです．確率的トピックモデル*4 Probabilistic
yukimori_726 2016/04/06
lda

text

jubatus

classification
リンク
LDA で実験その１:stop words の扱い方でどう変わる？ - 木曜不足
LDA Python 実装編 LDA 解説編というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基本条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを１つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして
yukimori_726 2016/04/06
lda

text

jubatus
リンク
Python で LDAトピック分析手習い〜参考ウェブサイトのコードを写経して、gensimモジュールを使うやり方を１ステップごと、確認してみた - Qiita
4 sample.txt\n' プロ野球・巨人は、去年１０月に発覚した選手３人が関わった野球賭博問題で、８日、新たにプロ５年目の高木京介投手も賭博に関わった疑いが強まったことの責任を取って、球団の渡辺恒雄最高顧問、白石興二郎オーナー、そして桃井恒和球団会長が辞任する意向を明らかにしました。プロ野球、巨人は選手３人が関わった野球賭博問題で、新たにプロ５年目の高木京介投手も賭博に関わった疑いが強まったとしてＮＰＢ＝日本野球機構の熊崎勝彦コミッショナーに告発することを明らかにしました。巨人はこの問題の責任を取っ
yukimori_726 2016/03/16
lda

machinelearning
リンク
話題になっているトピックを抽出 - LDA with Spark MLlib - Qiita
LDA (Latent Dirichlet Allocation) は機械学習により大量のテキストデータから何がトピック (話題) となっているかを推測します。より具体的には文書集合内の単語の出現頻度 (Bag of Words) を特徴ベクトルとしてクラスタリングを行い、クラスタごとに中心に近い単語を抽出します。例えば最近トレンドになっているキーワード (Twitter のトレンドのようなもの) や、サポートメールに含まれる単語から最近多い問い合わせのネタを抽出するようなケースで利用できます。機能 Spark MLlib 1.6.0 の LDA では以下の機能が実装されています。文書集合に含まれている単語を k 個のトピック (クラスタ) に分類。あるトピックに含まれている (トピックを特徴付けている) 単語を重み付けし上位を抽出: LDAModel#discribeTopics
yukimori_726 2016/03/11
lda

mllib

spark
リンク
LDA入門
2. 内容 • NLPで用いられるトピックモデルの代表である LDA(Latent Dirichlet Allocation)について紹介する • 機械学習ライブラリmalletを使って、LDAを使う方法について紹介する
yukimori_726 2016/02/23
lda

clustering

machinelearning
リンク
Latent Dirichlet Allocation ゆるふわ入門 - あらびき日記
この記事は abicky.net の Latent Dirichlet Allocation (LDA) ゆるふわ入門に移行しました
yukimori_726 2016/02/23
lda

machinelearning

mllib

clustering
リンク
1