takemikamiのブックマーク / 2015年9月15日

第8回　コンテンツベースのレコメンドシステムのHadoop実装［後編］ | gihyo.jp

自分で確認してみたい場合前回紹介したMapReduceの第一段階のReducerの出力結果のデータ構造で <key value> は <単語id　単語idを含むアイテムidのリスト> でした。コンテンツベースのレコメンドは、アイテム間の類似性をそれぞれの内容（アイテムのメタデータや概要など）の類似性に基づいて計算するために単語を使います。一般に、ミススペルされた単語の出現頻度は他の単語に比べ非常に低く、それらを含むレビューおよび該当するアイテムは少ないと予想できます。また、冠詞などの単語はほとんど全てのレビューに出現するため、出現頻度は他の単語に比べて非常に高く、それらを含むレビューおよび該当するアイテムの数は非常に大きくなります。したがって、単語ごとのレビューやアイテムのリストの長さを見て、以降の処理で利用する単語を選択することができます。 TF/IDF TFはTerm Freq

はてなブックマーク

タグ

2015年9月15日のブックマーク (1件)

第8回　コンテンツベースのレコメンドシステムのHadoop実装［後編］ | gihyo.jp

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2015年9月15日のブックマーク (1件)

第8回 コンテンツベースのレコメンドシステムのHadoop実装［後編］ | gihyo.jp

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

第8回　コンテンツベースのレコメンドシステムのHadoop実装［後編］ | gihyo.jp