タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Qiitaとdoc2vecに関するni66lingのブックマーク (2)

  • [gensim]Doc2Vecの使い方 - Qiita

    大抵はgensimの公式に書いてあるけど、日語の資料はそんなに多くないので、自分がよく使う基的なやつを初心者向けにまとめときます。 準備(インストール) #coding: UTF-8 from gensim.models.doc2vec import Doc2Vec from gensim.models.doc2vec import TaggedDocument f = open('学習データ.txt','r')#空白で単語を区切り、改行で文書を区切っているテキストデータ #1文書ずつ、単語に分割してリストに入れていく[([単語1,単語2,単語3],文書id),...]こんなイメージ #words:文書に含まれる単語のリスト(単語の重複あり) # tags:文書の識別子(リストで指定.1つの文書に複数のタグを付与できる) trainings = [TaggedDocument(word

    [gensim]Doc2Vecの使い方 - Qiita
  • Word2Vecの進化形Doc2Vecで文章と文章の類似度を算出する - Qiita

    ■ doc2vec.pyをカスタマイズ 変更点① デフォルトのdoc2vec.pyだと、レスポンスのときのlabelがカスタマイズできなかったので、 設定したlabelで結果を呼び出せるように変更してみました。 変更点② doc2vec.pyのデフォルトでは、文書の似ているものは?って叩くと、文書も単語も出力されてしまうので、文書の似ている文書だけを出力するメソッドも作成しました。 #!/usr/bin/env python # -*- coding: utf-8 -*- # # Copyright (C) 2013 Radim Rehurek <me@radimrehurek.com> # Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html """ Deep learning via the d

    Word2Vecの進化形Doc2Vecで文章と文章の類似度を算出する - Qiita
  • 1