タグ

*hadoopと*連載に関するmopinのブックマーク (1)

  • 第7回 コンテンツベースのレコメンドシステムのHadoop実装[中編] | gihyo.jp

    処理の流れと各処理におけるデータ形式 前回の繰り返しになりますが、Hadoopで同じ関数を使い類似性の計算をするのであれば、コンテンツベースと協調フィルタリングの違いは、keyおよびvalueの設定の違いにあります。 今回利用するデータも協調フィルタリングと同様にAmazon review data setです。このデータは以前紹介した場所から、現在は次の場所に移っています。 URL:http://liu.cs.uic.edu/download/data/ アイテム間の相関を協調フィルタリングではユーザの数で計算しましたが、コンテンツベースでは単語の数で計算します。したがって、MapReduceの第一段階における<key value>は協調フィルタリングでは<ユーザid アイテムid>でしたが、コンテンツベースでは<単語id アイテムid>となります。 図1にMapReduceの各段階で使

    第7回 コンテンツベースのレコメンドシステムのHadoop実装[中編] | gihyo.jp
  • 1