自分で確認してみたい場合 前回紹介したMapReduceの第一段階のReducerの出力結果のデータ構造で <key value> は <単語id 単語idを含むアイテムidのリスト> でした。 コンテンツベースのレコメンドは、アイテム間の類似性をそれぞれの内容(アイテムのメタデータや概要など)の類似性に基づいて計算するために単語を使います。 一般に、ミススペルされた単語の出現頻度は他の単語に比べ非常に低く、それらを含むレビューおよび該当するアイテムは少ないと予想できます。また、冠詞などの単語はほとんど全てのレビューに出現するため、出現頻度は他の単語に比べて非常に高く、それらを含むレビューおよび該当するアイテムの数は非常に大きくなります。 したがって、単語ごとのレビューやアイテムのリストの長さを見て、以降の処理で利用する単語を選択することができます。 TF/IDF TFはTerm Freq