タグ

ブックマーク / takuti.me (2)

  • TF-IDFで文書内の単語の重み付け

    『いくつかの文書があったとき、それぞれの文書を特徴付ける単語はどれだろう?』こんなときに使われるのがTF-IDFという値。 TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表します。たくさん出てくる単語ほど重要! $\textrm{tf}(t,d)$ 文書 $d$ 内のある単語 $t$ のTF値 $n_{t,d}$ ある単語 $t$ の文書 $d$ 内での出現回数 $\sum_{s \in d} n_{s,d}$ 文書$d$内のすべての単語の出現回数の和 IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表します。いくつもの文書で横断的に使われている単語はそんなに重要じゃない! $\textrm{idf}(t)$ ある単語 $t$ のIDF値 $N$ 全文書数 $\textrm{df}(t)$

    TF-IDFで文書内の単語の重み付け
    ottonove
    ottonove 2018/04/16
  • 【実践 機械学習】レコメンデーションをシンプルに、賢く実現するための3か条

    これが行動履歴から傾向を判断し、推薦につなげていく基的なアイディアになる。そして 共に好まれやすい傾向 をログから数値的に見つけ出してくれる機能を備えたのが、Mahoutというライブラリだ。 3. 高速な検索技術を活用する 今、きんモザとごちうさが共に好まれやすいという傾向がわかった。それでは、ここでもし新しい登場人物・サトシが "きんモザ BD" というキーワードでAmazonを検索していたら、Amazonのシステムはどう対応すべきだろう? 答えはシンプルだ。すかさず、ごちうさのBDも こんな商品もいかがですか? と表示すればいい。 (ここまで書いてから確かめたら案の定そうなった) これが現実的なシーンでの推薦システムの動きになる。傾向に基づいた推薦は闇雲に広告を打つよりよっぽど賢いし、効果的だ。 ただし、「きんモザで検索していたら、すかさずごちうさも表示する」という推薦処理は高速に行

    【実践 機械学習】レコメンデーションをシンプルに、賢く実現するための3か条
    ottonove
    ottonove 2017/12/15
    スキルアップ, 教材, 機械学習
  • 1