[B! tfidf] takemikamiのブックマーク

takemikami id:takemikami

tfidfに関するtakemikamiのブックマーク (1)

第8回　コンテンツベースのレコメンドシステムのHadoop実装［後編］ | gihyo.jp
自分で確認してみたい場合前回紹介したMapReduceの第一段階のReducerの出力結果のデータ構造で <key value> は <単語id　単語idを含むアイテムidのリスト> でした。コンテンツベースのレコメンドは、アイテム間の類似性をそれぞれの内容（アイテムのメタデータや概要など）の類似性に基づいて計算するために単語を使います。一般に、ミススペルされた単語の出現頻度は他の単語に比べ非常に低く、それらを含むレビューおよび該当するアイテムは少ないと予想できます。また、冠詞などの単語はほとんど全てのレビューに出現するため、出現頻度は他の単語に比べて非常に高く、それらを含むレビューおよび該当するアイテムの数は非常に大きくなります。したがって、単語ごとのレビューやアイテムのリストの長さを見て、以降の処理で利用する単語を選択することができます。 TF/IDF TFはTerm Freq
takemikami 2015/09/15
hadoopでのtd/idf計算の実装の説明

hadoop

tfidf
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx