ブックマーク / qiita.com/lamrongol (2)

  • Twitter固有の要素を考慮したスパムフィルターの実装 - Qiita

    以下では自分が運用しているトレンド解析システムで使用しているスパムフィルターの実装方法について解説していきます。 スパムフィルターで用いる機械学習 スパムフィルターの実装では機械学習の中でも「教師あり学習」と言われるものを用います。これはラベルと特徴量からなるデータから、どのような特徴を持つものがどのようなラベル(カテゴリ)に当たるかを自動的に学習するものです。 具体的に見ていきましょう。例えばTwitterには以下の様なツイートがあります。 1.眠い……でも起きなきゃ 2.同点から中田の3ランホームラン! 3.[無料でカンタン]に魔法石ゲット♪ ⇒http://xxx.xyz/999 4.相互フォローで繋がれる人募集中です!すぐフォロー返しますのでよろしくお願いします! リツイートもしてほしいな♪ #followme #refollow #followback #相互フォロー #soug

    Twitter固有の要素を考慮したスパムフィルターの実装 - Qiita
  • 遺伝的アルゴリズムによる非線形重回帰分析の変数&関数選択 - Qiita

    まず回帰分析とは 回帰分析とは何らかの目的変数を別のパラメータ(説明変数)から導き出すモデルを考えることです。 例えばある人の身長は遺伝によりその人の父親の身長と相関があると考えられます。この時息子の身長を「目的変数」として父親の身長から息子の身長を推定することを考えます。 まず、何人もの人の父親の身長(x(i))と息子の身長(y(i))を調べてデータを作ります(x(1),y(1)), x(2),y(2)), x(3),y(3))...)。それをプロットしたところ下図のようになったとします。 この時、なんとなく以下の直線のような関係があると推測できます。式で書くと$y=ax+b$です。 ではどのようなa,bを選ぶのが一番いいのでしょう? それは誤差が一番少なくなるa,bです。具体的には$y=ax+b$で計算したyの値(理論値)と実際のyの値の差(の2乗)の和( 残差平方和 )が最小になるa

    遺伝的アルゴリズムによる非線形重回帰分析の変数&関数選択 - Qiita
  • 1