[B! LDA][機械学習] katryoのブックマーク

katryo id:katryo

LDAと機械学習に関するkatryoのブックマーク (3)

教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
katryo 2014/02/20
よい知見

LDA

機械学習

自然言語処理
リンク
論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm
“Representing Topics Using Images", Nikolaos Aletras and Mark Stevenson 研究室で論文紹介したので適当に以下に資料を貼っておく。論文を読んだ後で気づいたけど、NAACL 2013はまだやっていないので、preprintバージョン(？)っぽい。何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、以下では日本語の説明を加えておいた。英語が間違っている部分があると思いますが、コメントで指摘なりスルーするなりしてください。スライドはこうした方がいいとかもあったらぜひ。後から読むと説明の流れが変かな？ってところもありますね。論文中の図表ってどの程度載せていいんでしょうか……？やっぱりまったく載せないほうがいいんですかね。論文紹介概要自然言語処理ではトピックモデルというものがよく用いられている。トピ
katryo 2013/11/04
へーすごい。単語と画像で同トピック画像検索したらけっこう高い性能になる

自然言語処理

機械学習

LDA

人工知能
リンク
H24:Introduction to Statistical Topic Models
統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献「私のブックマーク: Latent Topic Model (潜在的トピックモデ
katryo 2013/11/04
な、なるほど

LDA

スライド

pdf

機械学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx