[B! lda] skozawaのブックマーク

skozawa id:skozawa

ldaに関するskozawaのブックマーク (4)

トピックモデルを用いた潜在ファッション嗜好の推定
Takashi KanedaChief Analytics Officer at Future Standard Co., Ltd.
skozawa 2015/12/25
トピックモデル

lda
リンク
自然言語処理シリーズ 8 トピックモデルによる統計的潜在意味解析 | コロナ社
大量のデータの背後にある潜在的な情報を抽出する技術として，トピックモデルと呼ばれる統計モデルの研究が近年注目を集めている。本書はこれについて，言語処理という具体的な問題に対して，その理論と応用をわかりやすく解説する。 0. 本書の使い方 0.1　本書の読み方 0.2　各章と付録の説明 0.3　本書で用いる記号など 1. 統計的潜在意味解析とは 1.1 　潜在的意味・トピックと潜在的共起性 1.2 　潜在意味解析の歴史 1.3 　統計的潜在意味解析とデータ駆動インテリジェンスの創発 1.4　確率的潜在変数モデル 1.5 　確率的生成モデルとグラフィカルモデル 2. Latent Dirichlet Allocation 2.1　概要 2.2 　多項分布とDirichlet分布 2.3 　LDAの生成過程 2.4　 LDAの幾何学的解釈 2.5　 LDAの応用例 3. 学習アルゴリズ
skozawa 2015/02/11
NLP

lda
リンク
トピックモデルシリーズ 1 概要
せっかく区切りがいいところまで勉強したのにoutputしないと忘れそうなので、メモを兼ねてしばらくトピックモデルについて記事を書きます。JAGSで実行したところ、そこそこ速いし収束もしました。しかしほとんど意味をなさないような幅広い推定結果になってしまいましたのでStanを使うことにしました。はじめにStanで実装するメリット・デメリットについて簡単に触れたいと思います。メリット・実装がラク。LDAでも30行ぐらい。・ややこしい推論部分は一切実装しなくてOK。全部StanのHMCサンプリングにお任せ。・モデルの拡張が簡単。デメリット・計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースではトピック数が20, iter=1000で9時間, iter=10000で35時間でした。Stanのmulti-threading対応待ち。・データが少ないと収束しない
skozawa 2014/02/18
lda

NLP
リンク
教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
skozawa 2014/02/18
twitter

nlp

機械学習

lda
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx