[B! doc2vec] manabouのブックマーク

Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

はじめまして，Sansan DSOC R&Dグループインターンの小林といいます。 2月下旬から3月末までの間，主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが，他の研究員の方やインターンの先輩とのディスカッションなど，とにかく刺激的な日々でした。本稿はNLPブログということで，近年のNLPでスタンダードとなっている，単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて文書ベクトルによるニュース文書属性判定を試すタスク：スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点精度検証実験実験実行と結果実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行実験② 複数の文書に対する独

manabou 2019/04/10

doc2vec
nlp

リンク

Doc2Vecを使い似た投稿を取得する - Qiita

FROM shwld/mecab-python WORKDIR /usr/data RUN wget http://www.rondhuit.com/download/ldcc-20140209.tar.gz \ && tar xvfz ldcc-20140209.tar.gz WORKDIR /usr/src from os import listdir, path import MeCab from gensim.models.doc2vec import Doc2Vec from gensim.models.doc2vec import LabeledSentence mecab = MeCab.Tagger('-Owakati -d /usr/lib/mecab/dic/mecab-ipadic-neologd') dirs = [{'key':i, 'label':path.jo

manabou 2017/04/24

リンク

機械学習初心者向け、Word2VecとDoc2Vecでディープラーニングやってみた -

秋山です。機械学習が人気ですが、「Word2Vec」「Doc2Vec」という、文章などを分析するニューラルネットワークモデルを知っていますか？すごーく簡単に言うと、「Word2Vec」は単語の類似度のベクトル、「Doc2Vec」は文章の類似度のベクトルを表現します。結構前に話題になったので既に知っている人も多いかもしれませんが、今回はpaizaのスキルチェック問題に提出された一部のコードを対象に、「Word2Vec」と「Doc2Vec」でどんなことができるかやってみたいと思います。（※スキルチェック問題や回答の内容は判別できないように処理しています） ■Word2Vecについてざっくり言うと、ある単語の周辺に別の単語が出現する確率……みたいなものを見てくれます。ニューラルネットワークを使って、類似度を求めています。Word2Vecは隠れ層1、出力層1の、2層のニューラルネットワーク

manabou 2017/03/17

リンク

文章をベクトル化して類似文章の検索 - Qiita

Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとはコンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。単語の意味をベクトル化する手法としてWord2Vecが存在します。詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。こうすることで、例えば「犬」と「猫」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。実装サンプル今回Doc2Vecを用いて実現するのは、以下の2つの機能です。単語で文章を検索類似文章の検索サンプルとして、青空文庫の文章を使用しました。なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzipに

manabou 2017/03/01

リンク

Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日本のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。では、Bag-of-wordsの何が問題なのだろうか？Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

manabou 2017/01/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

doc2vecに関するmanabouのブックマーク (5)

お知らせ

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

今週のはてなブックマーク数ランキング（2025年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス