文書をベクトル化 文書の特徴をベクトルで表すことを考えてみます。 単純な方法として、単語の出現頻度を要素とするベクトルが考えられます。 これでも、それなりに特徴を捉えてはいますが、たとえば「です」「ます」のように、どの文書にも存在する、ありふれた単語(さほど重要でない)に大きく引きずられてしまいます。 その弊害を避けるため、特定の文書にだけ現れる単語と、ありふれた単語に差をつけます。つまり、各単語の希少性を考慮にいれることを考えます。 そこで登場するのが TF-IDF です。 TF-IDF TF は Term Frequency、単語の出現頻度 IIDF は Inverse Document Frequency、逆文書頻度(これが希少性) 単語の出現頻度と希少性をふたつ掛け合わせた値が TF-IDF で、下記の計算でもとめます。