タグ

2011年8月27日のブックマーク (3件)

  • スパムブログ研究 splogサーベイ : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 splog率 各社からの回答 splog フィルタリングには、大別して リンク解析 コンテンツ解析 とがあります.... ワードサラダ(word salad)など、細切れの単語が並んでいる場合は、通常のコンテンツ解析ではうまくできず、 相補的にリンク解析を用いるべきケースがあるでしょう。 「検索エンジンスパムの解決法を公開する人はいない」 その価値の高さから、Yerazunis氏は、学者たちもその方法を秘匿しているのではないかと疑っている。仮にある学者が民間企業よりも早くその解決法を発見したら、その学者は間違いなく、

    スパムブログ研究 splogサーベイ : 研究開発
  • splogに関するサーベイ : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 surveyというか、 論文紹介程度です。 3月10日(月)発表前のはずですが、なぜかもう見えます。 神門先生の名が入ってます。名前だけかもしれません。 キーワードの時系列特性を利用したスパムブログの収集・類型化・データセット作成: 佐藤有記、宇津呂武仁(筑大)、福原知宏(東大)、河田容英、村上嘉陽(ナビックス)、中川裕志(東大)、神門典子 (NII) ※ちなみに、データセット作成とタイトルにありますが、 このデータセットを評価用に外部の人間にも使わせてくれればいいのに 使わせてはくれないようです。 splogの定義

  • Regularized Latent Semantic Indexing - tsubosakaの日記

    最近勉強会で発表する予定のものと仕事関係の論文しか読んでなかったのでこのブログにはあんまり書けなかったんだけど、久々に書いてみる。 紹介する論文はSIGIR 2011のLSIを語彙数が大きい時にも効率的に並列化できるようにしたという論文[1]。 論文概要 PLSIやLDAみたいなトピックモデルは情報検索においても性能向上で重要であるが、語彙数が多い時スケールしないという問題点がある(文章数に関しては効率的な実装が知られている。例えば[2])。このためよく行われるのが語彙数を1万とかに制限する方法ですが、情報検索への応用を考えるとこのアプローチは問題がある(文章分類やクラスタリングへの応用であればこれで問題ない)。 このため著者らはRLSIという方法を提案した。これにより160万文章、語彙数700万のデータセットに対して16台のマシンでトピック数500のとき1時間半で処理できた(おそらく1イ

    Regularized Latent Semantic Indexing - tsubosakaの日記