はじめに BERTとは、自然言語処理に使われる汎用言語モデルの名前である。Googleが2018年に発表した(原論文)。このモデルをファインチューニングすることにより、自然言語処理の多くのタスクでSOTA(State Of The Art)が達成されている。今回はこのBERTを用いた文書分類を、既存コードとライブラリを用いて行う。 問題設定 以下の問題を考える。 文書を複数個用意する。各文書はタイトルと本文(document)から成る。ここで、本文とは文(sentence)の集まりのことである。 文書は複数の分野から集める。 タイトルあるいは本文だけからその分野を予測したい。 最初に、タイトルによる分類(タイトル分類)を考える。 タイトル分類の方針 タイトルを1つの文とみなし、これをBERTを用いて1つの多次元ベクトル(文埋め込み:sentence embeddings)に変換する。分野を