はじめに なんだかんだBERTを使ったことがなかった。 いまや、自然言語処理といえばBERTの世の中だというのに。 若者でなくなり、流行を追えず、Facebookはやっているが、InstagramやTiktokはやっていない、そんな自分…。 せめて仕事にしているデータ分析の世界では後追いでも流行を追うべきでは?そんな気持ちになった今日この頃。 ということで、事前学習済みモデルを使うとか、そもそも手持ちデータで自分で事前学習するとか、huggingfaceのtransformersでいろいろできるようになっておきたかったので触ってみた。 普通に触るだけでは味気ないので、単語分散表現を抽出し、cos類似度を計算して同義語抽出についてword2vecの結果と比較することに。 WordNetで定義された同義語と同じ単語をいくつ同義語として抽出できるか評価した。 word2vec、Transform