【残差idfとは】 単語の「重みづけ」の方法のひとつです。 「RIDF」(residual IDF)とも呼ばれます。 ポアソン分布を利用して単語のidf値を推定し、実際のidf値との差を測ることで、一般語よりも内容語に重みが加わるようにします。 【計算式】 残差idf値 = (実際のidf値) - (ポアソン分布により推定されたidf値) (※ポアソン分布に関する説明は割愛します。) 【Excel関数で残差idf値を求めてみる】 本題の「残差idf値をExcel関数を用いて計算する方法」を説明します。 データは「Excel関数でidf値を計算してみる」同様、『情報検索アルゴリズム』(共立出版)で紹介されている「1994年の『毎日新聞』前半46534記事中の単語15種類」を使用しています。 ※画像をクリックすると別ウィンドウで拡大画像が表示されます。 E~G列はポアソン分布に関連