タグ

PythonとTF-IDFに関するrabbit2goのブックマーク (2)

  • TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード7区

    文書をベクトル化 文書の特徴をベクトルで表すことを考えてみます。 単純な方法として、単語の出現頻度を要素とするベクトルが考えられます。 これでも、それなりに特徴を捉えてはいますが、たとえば「です」「ます」のように、どの文書にも存在する、ありふれた単語(さほど重要でない)に大きく引きずられてしまいます。 その弊害を避けるため、特定の文書にだけ現れる単語と、ありふれた単語に差をつけます。つまり、各単語の希少性を考慮にいれることを考えます。 そこで登場するのが TF-IDF です。 TF-IDF TF は Term Frequency、単語の出現頻度 IIDF は Inverse Document Frequency、逆文書頻度(これが希少性) 単語の出現頻度と希少性をふたつ掛け合わせた値が TF-IDF で、下記の計算でもとめます。

  • 【レコメンド】内容ベースと協調フィルタリングの長所と短所・実装方法まとめ - Qiita

    アルゴリズムの説明 ■ 協調フィルタリングとは アイテム利用者の行動履歴を元にレコメンドする方法です。Amazonの『この商品を買った人は、こんな商品も』機能が有名です。協調フィルタリングによるレコメンドはユーザの行動を元にレコメンドする方法です。 ■ 内容ベース(コンテンツベース)フィルタリングとは アイテムの特徴ベクトルで類似度ソートしてレコメンドする方法です。 グルメサイトでユーザが入力した『新宿・エスニック料理』というキーワードに関連付けられたお店が表示される場合が該当します。内容ベースによるレコメンドはアイテムの特徴を元にレコメンドする方法です。 特性の詳細について ■ 多様性 協調: o 内容ベース: x 内容ベースでは商品内容に記載されていない情報はレコメンドされませんが、協調フィルタリングでは他の利用者を通じてレコメンドされるため自身がしらない情報でもレコメンド出来ます。

    【レコメンド】内容ベースと協調フィルタリングの長所と短所・実装方法まとめ - Qiita
    rabbit2go
    rabbit2go 2017/08/07
    Python3ではprint文への括弧、lxmlのインストール、日本語文字の対象として句読点の追加も必要だった。
  • 1