タグ

NLPとtwitterに関するskozawaのブックマーク (3)

  • 教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ

    ※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す

    教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
  • Twitter、学術研究にツイートデータを無料で提供する「Twitter Grants」を発表

    Twitterは2月5日(現地時間)、公開されているTwitterデータ(いわゆる「Firehose」)を学術研究者に無償で提供する試験的なプロジェクトTwitter Grants」を発表した。 参加を希望する非営利の学術研究機関はエントリーページから申し込める。締め切りは3月15日。選考後、一部の参加希望者がFirehoseに無償でアクセスできるようになる。 公開ツイートは1日当たり5億件以上投稿されており、累計すると膨大な量になる。Twitterは米Microsoftなどの企業には有償でこのデータへのアクセスを提供している。Twitterが同日発表した2013年10~12月期の決算によると、データライセンスなどの売り上げは2300万ドルだった。 Twitterは社内のエンジニアリングチームで開発したツイートデータを使った幾つかの視覚化動画を発表している。また、これまで一部の学術機関

    Twitter、学術研究にツイートデータを無料で提供する「Twitter Grants」を発表
  • Twitter、信頼できる速報ツイートを通知する報道向けサービス「Dataminr」を発表

    Twitterは1月29日(現地時間)、ジャーナリスト向けのアラートシステム「Dataminr for News」を発表した(Dataminrはデータマイナーと読む)。膨大なツイートの中から速報ネタを探すメディア関係者に、信頼できるツイートをリアルタイムで知らせるというもの。 金融向けアラートサービスを手掛ける米Dataminrが、Twitterと米CNNと協力して構築した。CNNは現在、αパートナーとして同サービスを利用している。 1日当たり5億件投稿されるツイートを独自のアルゴリズムでリアルタイムに分析し、ユーザーがあらかじめ設定したカテゴリーに合わせて関連する注目ツイートを通知する。 2009年創業のDataminrは、2011年からTwitterと協力し、同様のサービスを金融企業と公共機関向けに提供してきた。Dataminr for Newsは、CNNのジャーナリストからのフィー

    Twitter、信頼できる速報ツイートを通知する報道向けサービス「Dataminr」を発表
  • 1