タグ

2013年8月19日のブックマーク (2件)

  • tfidfについて - 元ダメ院生がギークになるまで続ける日記

    授業でtfidfを勉強してちょっと分かりづらかったのでまとめておく。 tfidfとは? 情報検索で使うアルゴリズムの一つ。 それぞれの単語に重みをつけて、クエリーから文書をベクトル空間で表し 文書とクエリーの類似度でランク付けを行う。 その値が高いほど重要。 tfidf = w = tf・idf w:重みということ。 tfとは? Term frequency(単語出現頻度) 同じ文書に何回も現れる単語ほど検索の有力な手がかり。 つまり一つの文書の中に多く書かれてる単語を探すってことか。 f =frequency of term in a document 単語が一つの文書で出現する頻度 つまりブラウザ上で Ctrl-Fとか使ってある単語を検索したときに、ヒットする数 tf = f/max(f) = 単語の頻度/文章で出現する単語の中で一番多い単語の数 修正(2009 1/6) tf = f

    tfidfについて - 元ダメ院生がギークになるまで続ける日記
    kw5
    kw5 2013/08/19
  • 「グーグルのプライバシー無視発言」報道が伝えなかったこと

    グーグルが提出した裁判文書に含まれた、「自らの意思でサードパーティに渡した情報について、人は合法的にプライバシーを期待することはできない」という引用がヒステリックな報道につながった。当に気にすべきこととは何か。 米国で、「グーグルがGmailユーザーのプライバシー無視発言をした」と複数のWebメディアが報じた。 対象となったのは、「グーグルがGmailのメール内容から情報を抽出し、ターゲティング広告に利用しているのは、米国および州の通信不正傍受防止関連法に抵触する」として起こされた集団民事訴訟に対する却下申請(motion to dismiss)(全文はここで見られる)中の、下記の文言。 Just as a sender of a letter to a business colleague cannot be surprised that the recipient’s assista

    「グーグルのプライバシー無視発言」報道が伝えなかったこと
    kw5
    kw5 2013/08/19