11 月 20〜23 日開催の自然言語処理の主要な国際会議「AACL-IJCNLP 2022」に参加しました。投稿した論文が本会議にロングペーパーとして採択され、22 日にポスター発表を実施しました。本記事の最後に、論文・コード・発表資料のリンクを掲載しています。 本研究では、コーパス内の通時的な単語の意味変化と、事前学習済み言語モデルの時系列性能劣化の関係性を議論しました。主要な発見の一つは「構築した word2vec や RoBERTa モデルの性能が時系列で大きく悪化する際に、学習用コーパス内の通時的な単語の意味変化が大きくなっている」点です。巨大なモデルが普及する中で(比較的低コストな)学習用コーパスの分析から、再学習した場合の性能を推察できるのは実用上の利点があります。 この研究では、学習用コーパスの期間を変えながら日・英の word2vec モデルや 12 個の日本語 RoBE