[B! LDA] petitvioletのブックマーク

petitviolet id:petitviolet

LDAに関するpetitvioletのブックマーク (2)

pythonで文章を分類して俺にメールしない． | @DataSci
文章を分類するメモ pythonのgensimというライブラリを使う LDAをつかいます． LDAの解説はberobero先生のここが超詳しいので割愛 Wikiデータを学習させて任意の文章を分類する．この記事を拝見して分類も出来ると便利だ！と思ったので！分類教師データのクレンジングと複合語による分かち書き結局公開するんかーいってことで，下記のスクリプトでクレンジングと分かち書きを一気に行います. # -*- coding: utf-8 -*- import MeCab import re import unicodedata class Cleanser(): def __init__(self): self.patUrl = re.compile("https?://[\w/:%#\$&\?~\.=\+\-]+") self.patXml = re.compile("<(\
petitviolet 2014/12/20
トピックモデル

Python

LDA

Gensim
リンク
教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
petitviolet 2014/02/17
機械学習

LDA
リンク
1