タグ

ldaとjubatusに関するyukimori_726のブックマーク (3)

  • LDAで日本語PDF分析 - old school magic

    概要 最近、LDAを(pythonで)実装する機会がありました。 サンプリングを用いる実装だったので、Python等のスクリプト言語だとどうしても計算時間が問題になってしまいます(特に大規模なデータに対して)。 せっかくなのでコンパイル系の言語であるJavaで実装し直し、ついでに日PDFファイル(というか日語論文)をLDAで分析してみました。 全体的な手順としては、 PDFからテキスト抽出 正規表現で日語を抽出 Mecabで形態素解析 特徴語(今回は名詞)の選択 ストップワードの除去 LDAで分析 となっています。 分析に使ったLDAの実装やスクリプトはGithubにあります。 LDAのJava実装 https://github.com/breakbee/LDA4J PDF分析のスクリプト https://github.com/breakbee/PDFAnalysis Python

  • 2. LDAによるトピック解析 - どこでも見れるメモ帳

    はじめに 連載記事 はてブ記事を用いた興味分析 の2つ目の記事です. ここでは,はてブに登録したWebページ全てに対して,LDA*1によるトピック解析を行い, はてブに登録している内容のトピック(話題,興味の対象)を分析します. 実装の前提として,データの準備(はてブからブログ記事取得・形態素解析)が完了していることを想定しています. トピック解析とは? トピック解析とは,入力データのトピック(話題,分野など,大ざっぱな「意味」)を推定することです.データの抽象化とも言えると思います.クラスタリング*2におけるクラスの推定,次元圧縮*3における基底の推定などと非常に似ています. 記事におけるトピック解析とは,入力のはてブ記事群におけるジャンル推定を意味します. トピック解析の詳細は,次のページ(PDF)が分かりやすく,オススメです. 確率的トピックモデル*4 Probabilistic

    2. LDAによるトピック解析 - どこでも見れるメモ帳
  • LDA で実験 その1:stop words の扱い方でどう変わる? - 木曜不足

    LDA Python 実装編 LDA 解説編 というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを1つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして

    LDA で実験 その1:stop words の扱い方でどう変わる? - 木曜不足
  • 1