タグ

ldaに関するskozawaのブックマーク (4)

  • トピックモデルを用いた 潜在ファッション嗜好の推定

    Takashi KanedaChief Analytics Officer at Future Standard Co., Ltd.

    トピックモデルを用いた 潜在ファッション嗜好の推定
  • 自然言語処理シリーズ 8 トピックモデルによる統計的潜在意味解析 | コロナ社

    大量のデータの背後にある潜在的な情報を抽出する技術として,トピックモデルと呼ばれる統計モデルの研究が近年注目を集めている。書はこれについて,言語処理という具体的な問題に対して,その理論と応用をわかりやすく解説する。 0. 書の使い方 0.1  書の読み方 0.2  各章と付録の説明 0.3  書で用いる記号など 1. 統計的潜在意味解析とは 1.1  潜在的意味・トピックと潜在的共起性 1.2  潜在意味解析の歴史 1.3  統計的潜在意味解析とデータ駆動インテリジェンスの創発 1.4  確率的潜在変数モデル 1.5  確率的生成モデルとグラフィカルモデル 2. Latent Dirichlet Allocation 2.1  概要 2.2  多項分布とDirichlet分布 2.3  LDAの生成過程 2.4  LDAの幾何学的解釈 2.5  LDAの応用例 3. 学習アルゴリズ

    自然言語処理シリーズ 8 トピックモデルによる統計的潜在意味解析 | コロナ社
  • トピックモデルシリーズ 1 概要

    せっかく区切りがいいところまで勉強したのにoutputしないと忘れそうなので、メモを兼ねてしばらくトピックモデルについて記事を書きます。JAGSで実行したところ、そこそこ速いし収束もしました。しかしほとんど意味をなさないような幅広い推定結果になってしまいましたのでStanを使うことにしました。はじめにStanで実装するメリット・デメリットについて簡単に触れたいと思います。 メリット ・実装がラク。LDAでも30行ぐらい。 ・ややこしい推論部分は一切実装しなくてOK。全部StanのHMCサンプリングにお任せ。 ・モデルの拡張が簡単。 デメリット ・計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースでは トピック数が20, iter=1000で9時間, iter=10000で35時間でした。Stanのmulti-threading対応待ち。 ・データが少ないと収束しない

  • 教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ

    ※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す

    教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
  • 1