はじめに 以前、BERTを使って歌詞の文章ベクトルを算出し可視化する試みを行いました。BERTは優秀なんですが、入力できるトークン数が512に限られるため、長い文章のベクトル算出には向いていないんですよね。 今回は、上場企業約2,500社が有価証券報告書で書いている割と長文の文章について、Doc2Vecを使って文章ベクトルを算出し、あわせて、文章ベクトルから類似文書を検索してみました。 個人的には、BERTよりもDoc2Vecの方が納得感のいく結果を出している気がしています。 ここでは、文章ベクトルの算出方法・類似文書検索方法について、お伝えしていきたいと思います。 文章ベクトルのイメージ ①野球を観戦した ②サッカーの試合を見た ③犬の散歩にでかけた の3つの文章を2次元のベクトルに変換することを考えてみましょう。 文章の内容を考えると①と②が近く、③が少し離れているイメージですね。 こ