タグ

statisticsとspamに関するwebmarksjpのブックマーク (2)

  • 日本のブログのなんと約40%がスパムブログであることが判明

    ニフティ研究所が提供するブログ評判分析サービス「BuzzPulse」が対象としている国内の約9割強のブログ、4.5億記事を分析した結果、日国内にあるブログの約4割がスパムであることがわかったそうです。検索結果の精度が近年、特に悪くなっているような気がしていたのですが、気のせいではなかったようです。 詳細は以下から。 ニフティ、スパムブログのフィルタリング技術を開発|ニフティ株式会社 ニフティ研究所で分析対象としているブログ記事のうち、2007年10月~2008年2月の各月ごとにそれぞれ約10万記事をサンプリングして、スパムブログの割合を調査した結果、5ヶ月間の平均で、約40%がスパムブログという結果が判明。正確には以下のようになります。 2007年10月: 39.3% 2007年11月: 40.1% 2007年12月: 39.7% 2008年 1月: 39.9% 2008年 2月: 40

    日本のブログのなんと約40%がスパムブログであることが判明
  • ベイジアンフィルタについて

    最近話題のベイズ理論を用いたフィルタについて整理してみました.まず,ベ イズ理論が注目され始めたというニュースを最初にみたのが,MSも注目する “ベイズ”って何だ(oricom.co.jp)でした. このときは対して気にもとめていませんでしたが,再度興味をそそられ出した のが,グーグル、インテル、MSが注目するベイズ理論(CNET)のニュース. MSだけならまだしも,Googleが,というのが自分的には大きかったです.しか し,このニュースだけでは,この技術が具体的にどのように採用されるのか, 特に検索エンジンのような大規模なものに適用可能かどうかは大きな疑問でし た. そもそも,このベイズ理論がどこに聞いてくるのかということを考えるとその 疑問は自然だと思います.ベイズ理論(ベイズ推定)は,過去に起きた事象の 確率を利用して未来を予測する手法です.そのため,直感的にはユーザごとの 最適化

  • 1