タグ

word2vecとDeep Learningに関するaidiaryのブックマーク (4)

  • 文章をベクトル化して類似文章の検索 - Qiita

    Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzip

    文章をベクトル化して類似文章の検索 - Qiita
  • word2vecのソースを読んでみた - Qiita

    単語の意味をベクトルで表現する手法であるword2vec。検索するといろんな方の解説が見つかります。その解説とソースコードを見比べながら、自分なりに勉強してみました。 今回はword2vecのC#実装であるWord2Vec.Netのソースで勉強しました。ロジックは元々のC言語による実装とほとんど同じなので、このソースで勉強しても問題ありません。また、この方がVisualStudioのデバッガが使えるので追いやすいです。 word2vecには学習アルゴリズムとして「C-BOW」と「Skip-gram」の2種類の手法が紹介されていますが、今回は「Skip-gram」について勉強しました。計算量を抑えるやり方としては「階層的ソフトマックス」と「Negative Sampling」の2種類がword2vecのプログラム中に実装されていますが、今回は「Negative Sampling」を勉強しまし

    word2vecのソースを読んでみた - Qiita
  • Gensim: topic modelling for humans

    ✔   Train large-scale semantic NLP models ✔   Represent text as semantic vectors ✔   Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t

  • Word2Vec のニューラルネットワーク学習過程を理解する · けんごのお屋敷

    Word2Vec というと、文字通り単語をベクトルとして表現することで単語の意味をとらえることができる手法として有名なものですが、最近だと Word2Vec を協調フィルタリングに応用する研究 (Item2Vec と呼ばれる) などもあるようで、この Word2Vec というツールは自然言語処理の分野の壁を超えて活躍しています。 実は Item2Vec を実装してみたくて Word2Vec の仕組みを理解しようとしていたのですが、Word2Vec の内部の詳細に踏み込んで解説した日語記事を見かけることがなかったので、今更感はありますが自分の知識の整理のためにもブログに残しておきます。なお、この記事は Word2Vec のソースコードといくつかのペーパーを読んで自力で理解した内容になります。間違いが含まれている可能性もありますのでご了承ください。もし間違いを見つけた場合は指摘してもらえると

  • 1