Stop Words とは多くの文書に含まれていてそれ自体が文書の特徴を表しづらい単語を表します。例えば英文における the や in, after といったような単語は典型的な Stop Words です。 このような単語は検索時にノイズの原因となるためあらかじめ検索対象から除外する必要があります。この記事は選択情報量 (自己エントロピー) を使って検索時に除外すべき Stop Words を判断するための指標を求めます。 なおここで扱っている数式は TF-IDF でいうところの DF (Document Frequency) と本質的に同じです。情報量/エントロピーが「文書集合全体」に対する単語の特徴を示すのに対して、TF-IDF は「ある文書」に対する単語の特徴を示す (目的は文書要約や代表語の抽出) という点で異なります。 情報量とエントロピーの求め方 選択情報量 総文書数 $N$