タグ

2015年9月15日のブックマーク (1件)

  • 第8回 コンテンツベースのレコメンドシステムのHadoop実装[後編] | gihyo.jp

    自分で確認してみたい場合 前回紹介したMapReduceの第一段階のReducerの出力結果のデータ構造で <key value> は <単語id 単語idを含むアイテムidのリスト> でした。 コンテンツベースのレコメンドは、アイテム間の類似性をそれぞれの内容(アイテムのメタデータや概要など)の類似性に基づいて計算するために単語を使います。 一般に、ミススペルされた単語の出現頻度は他の単語に比べ非常に低く、それらを含むレビューおよび該当するアイテムは少ないと予想できます。また、冠詞などの単語はほとんど全てのレビューに出現するため、出現頻度は他の単語に比べて非常に高く、それらを含むレビューおよび該当するアイテムの数は非常に大きくなります。 したがって、単語ごとのレビューやアイテムのリストの長さを見て、以降の処理で利用する単語を選択することができます。 TF/IDF TFはTerm Freq

    第8回 コンテンツベースのレコメンドシステムのHadoop実装[後編] | gihyo.jp
    takemikami
    takemikami 2015/09/15
    hadoopでのtd/idf計算の実装の説明