[B! lda][jubatus] yukimori_726のブックマーク

yukimori_726 id:yukimori_726

ldaとjubatusに関するyukimori_726のブックマーク (3)

LDAで日本語PDF分析 - old school magic
概要最近、LDAを(pythonで)実装する機会がありました。サンプリングを用いる実装だったので、Python等のスクリプト言語だとどうしても計算時間が問題になってしまいます(特に大規模なデータに対して)。せっかくなのでコンパイル系の言語であるJavaで実装し直し、ついでに日本語PDFファイル(というか日本語論文)をLDAで分析してみました。全体的な手順としては、 PDFからテキスト抽出正規表現で日本語を抽出 Mecabで形態素解析特徴語(今回は名詞)の選択ストップワードの除去 LDAで分析となっています。分析に使ったLDAの実装やスクリプトはGithubにあります。 LDAのJava実装 https://github.com/breakbee/LDA4J PDF分析のスクリプト https://github.com/breakbee/PDFAnalysis Python
yukimori_726 2016/04/06
lda

jubatus

text

classification
リンク
2. LDAによるトピック解析 - どこでも見れるメモ帳
はじめに連載記事はてブ記事を用いた興味分析の2つ目の記事です．ここでは，はてブに登録したWebページ全てに対して，LDA*1によるトピック解析を行い，はてブに登録している内容のトピック（話題，興味の対象）を分析します．実装の前提として，データの準備（はてブからブログ記事取得・形態素解析）が完了していることを想定しています．トピック解析とは？トピック解析とは，入力データのトピック（話題，分野など，大ざっぱな「意味」）を推定することです．データの抽象化とも言えると思います．クラスタリング*2におけるクラスの推定，次元圧縮*3における基底の推定などと非常に似ています．本記事におけるトピック解析とは，入力のはてブ記事群におけるジャンル推定を意味します．トピック解析の詳細は，次のページ（PDF）が分かりやすく，オススメです．確率的トピックモデル*4 Probabilistic
yukimori_726 2016/04/06
lda

text

jubatus

classification
リンク
LDA で実験その１:stop words の扱い方でどう変わる？ - 木曜不足
LDA Python 実装編 LDA 解説編というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基本条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを１つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして
yukimori_726 2016/04/06
lda

text

jubatus
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx