t14kwのブックマーク / 2012年9月5日 - はてなブックマーク

TF-IDF - Negative/Positive Thinking

TF-IDFについていくつかの文書が与えられたとき、文書中の単語の重みを決める手法の一つ。 TF(Term Frequency, 文書中の単語出現頻度) 「よくでてくる単語はその文書の主題を表しやすい」ある文書dに単語tがでてきた個数をtf(t,d)と定める tfの定義として、個数nをそのまま用いてしまうと文書サイズが大きいほどnも大きくなってしまうことがある。なので、文書中のすべての単語数で割って正規化したものをtfとして定義するのがいいかも。 IDF(Inverse Document Frequency, 単語が出現する文書数の逆数) 「どんな文書にもよくでてくる単語は、あんまり重要じゃない」単語tがでてくる文書数をdf(t)とし、全文書数をNとしたとき、以下の式で決まる TF-IDF 上記の2つを組み合わせたもの。ある文書dに出現する単語tの重みを以下のように定義。 Oka

はてなブックマーク

タグ

2012年9月5日のブックマーク (2件)

Hadoopでレコメンドシステムを作ろう記事一覧 | gihyo.jp

TF-IDF - Negative/Positive Thinking

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2012年9月5日のブックマーク (2件)

Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp

TF-IDF - Negative/Positive Thinking

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Hadoopでレコメンドシステムを作ろう記事一覧 | gihyo.jp