タグ

2014年2月18日のブックマーク (2件)

  • 2014年2月14日号 MySQLのMicro Release Exception・12.04.5の検討・UWN#354 | gihyo.jp

    Ubuntu Weekly Topics 2014年2月14日号MySQLのMicro Release Exception・12.04.5の検討・UWN#354 MySQLのMicro Release Exception MySQL(5.5系)のMREが検討されています。 ここでいうMREはアメリカ軍が採用するレーション(Google検索時に「SELinux 無効」と同じノリで「MRE まずい」と出てくることで有名)のことではなく、「⁠Micro Release Exception」のことです。これはUbuntuのリリースポリシーの一つ、「⁠一度リリースしたソフトウェアの挙動は変更されるべきではない」(⁠Micro Releaseポリシー)への特別措置で、Firefoxのような進化の速いソフトウェアにおいて採用されるものです。基的には、「⁠仕様が変更されるコストよりも、最新版が利用できる

    2014年2月14日号 MySQLのMicro Release Exception・12.04.5の検討・UWN#354 | gihyo.jp
    Kesin
    Kesin 2014/02/18
    OracleとMySQLコミュニティとの対立が今ひとつ分かっていなかったけど、そういうことだったのか
  • 教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ

    ※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す

    教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
    Kesin
    Kesin 2014/02/18
    追加実験の結果だとかなり見やすいけど、どのトピックもスパムっぽく見えるのは元データにスパムが多いから?