[B! Python][TF-IDF] rabbit2goのブックマーク

rabbit2go id:rabbit2go

PythonとTF-IDFに関するrabbit2goのブックマーク (2)

TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード７区
文書をベクトル化文書の特徴をベクトルで表すことを考えてみます。単純な方法として、単語の出現頻度を要素とするベクトルが考えられます。これでも、それなりに特徴を捉えてはいますが、たとえば「です」「ます」のように、どの文書にも存在する、ありふれた単語（さほど重要でない）に大きく引きずられてしまいます。その弊害を避けるため、特定の文書にだけ現れる単語と、ありふれた単語に差をつけます。つまり、各単語の希少性を考慮にいれることを考えます。そこで登場するのが TF-IDF です。 TF-IDF TF は Term Frequency、単語の出現頻度 IIDF は Inverse Document Frequency、逆文書頻度（これが希少性）単語の出現頻度と希少性をふたつ掛け合わせた値が TF-IDF で、下記の計算でもとめます。
rabbit2go 2020/02/03
Python

tf-idf

自然言語処理
リンク
【レコメンド】内容ベースと協調フィルタリングの長所と短所・実装方法まとめ - Qiita
アルゴリズムの説明 ■ 協調フィルタリングとはアイテム利用者の行動履歴を元にレコメンドする方法です。Amazonの『この商品を買った人は、こんな商品も』機能が有名です。協調フィルタリングによるレコメンドはユーザの行動を元にレコメンドする方法です。 ■ 内容ベース（コンテンツベース）フィルタリングとはアイテムの特徴ベクトルで類似度ソートしてレコメンドする方法です。グルメサイトでユーザが入力した『新宿・エスニック料理』というキーワードに関連付けられたお店が表示される場合が該当します。内容ベースによるレコメンドはアイテムの特徴を元にレコメンドする方法です。特性の詳細について ■ 多様性協調: o 内容ベース: x 内容ベースでは商品内容に記載されていない情報はレコメンドされませんが、協調フィルタリングでは他の利用者を通じてレコメンドされるため自身がしらない情報でもレコメンド出来ます。
rabbit2go 2017/08/07
Python3ではprint文への括弧、lxmlのインストール、日本語文字の対象として句読点の追加も必要だった。

機械学習

レコメンド

Python

TF-IDF
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx