タグ

word2vecに関するgo5025のブックマーク (2)

  • Pythonでword2vecを自在に操って高次元ベクトルを可視化 | みんなのメモ帳

    word2vecで色々な言葉をベクトルに出来たのは良いものの、それを一切活用できない宝の持ち腐れ状態だったのでpythonで色々といじくれるように頑張ってみました。 word2vecpythonでいじれる環境を作る 依存するパッケージをpipでインストールします。 sudo -H pip install -I numpy scipy gensim matplotlib sklearn python仕様に辞書を作り直す 以前作ったモデルファイルはバイナリになっていてpythonで使うことが出来ないので(多分)、それも含めてもう一度学習をしないといけなくなりました。ので、今回はpythonでコーパスから学習するpythonのコードを。 # -*- coding:utf-8 -*- from gensim.models import word2vec files = word2vec.Text

  • Cos類似度とDoc2Vecってどっちが良いの? - Qiita

    ベーシック Advent Calendar 2016 10日目は、 17卒内定者の@enta0701です。 今年の9、10月ごろ、Cos類似度という単語を知りました。 4日目の記事にもありますが、レコメンドシステムなんかにも使えるそうです。 なにやら面白そうな匂いがしたので、実際に文書同士の類似度計算を Cos類似度と、ググっていたときに頻繁にでてきたDoc2Vecで試してみようと思います。 Cos類似度とは 2つのデータにおいて、特にn次元のベクトル同士を比較する際に扱われるそうです。 数式で書くとこんな感じ。 $$ similarity = cos\theta = \frac{A \cdot B}{||A|| ||B||} $$ 内積ですね。 この値が1に近いほど類似度が高く、0に近いほど類似度が低いことを表します。 Cos類似度を使って文書を比較する際には、文章中の単語に重み(特徴)

    Cos類似度とDoc2Vecってどっちが良いの? - Qiita
  • 1