はじめまして,Sansan DSOC R&Dグループ インターンの小林といいます。 2月下旬から3月末までの間,主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが,他の研究員の方やインターンの先輩とのディスカッションなど,とにかく刺激的な日々でした。 本稿はNLPブログということで,近年のNLPでスタンダードとなっている,単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて 文書ベクトルによるニュース文書属性判定を試す タスク:スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点 精度検証実験 実験実行と結果 実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行 実験② 複数の文書に対する独