タグ

Doc2Vecに関するroogh5eeSha6のブックマーク (3)

  • Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

    はじめまして,Sansan DSOC R&Dグループ インターンの小林といいます。 2月下旬から3月末までの間,主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが,他の研究員の方やインターンの先輩とのディスカッションなど,とにかく刺激的な日々でした。 稿はNLPブログということで,近年のNLPでスタンダードとなっている,単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて 文書ベクトルによるニュース文書属性判定を試す タスク:スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点 精度検証実験 実験実行と結果 実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行 実験② 複数の文書に対する独

    Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog
  • 膨大なメールを深層学習して運用効率化ツールを作る4 | SBテクノロジー (SBT)

    インフラやアプリのシステム運用を主の業務としております 前川敦史です。 膨大なメールを深層学習して運用効率化ツールを作る方法紹介の続きとなります。 今回の小話なのですが、私が一人で映ったプリクラがどうしても必要で、仕方なく一人でプリクラを撮影しに行ったのですが、その店舗では男性のみでのプリクラエリア入室が禁止となっていました。 この件について家族と真剣に話し合い、家族立ち合いの元で撮影を行いました。全て以下のような棒立ちの状態で撮影したのですが、立ち会った家族も同じように私を見ながら棒立ちでした。おかげで良いプリクラが撮影できたと思います。 一人でプリクラ撮影をする前川敦史 前川敦史が一人で撮影したプリクラ 家族を残し、落書きコーナーに一人で入る私を学生達はどう見ていたのか、私には想像もつきません。 では "可視化編:インスタ映えするような深層学習" をご紹介したいと思います。 前回の記事

    膨大なメールを深層学習して運用効率化ツールを作る4 | SBテクノロジー (SBT)
  • Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

    類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。 では、Bag-of-wordsの何が問題なのだろうか?Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

    Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
  • 1