産業技術総合研究所と東京工業大学の研究チームは12月19日、日本語に強い大規模言語モデル(LLM)「Swallow」を公開した。米Metaが開発したLLM「Llama 2シリーズ」をベースに日本語能力を改善させたもの。ライセンスは「LLAMA 2 Community License」で、研究や商業目的で利用できる。 今回公開したのは、パラメータ数が70億(7B)、130億(13B)、700億(70B)のモデル3種類。Llama 2シリーズが持つ高い言語処理能力を維持しながら日本語能力を強化することを目指した。 このため、AIモデルに日本語の文字や単語などの語彙を追加し、新たに開発した日本語データで継続事前学習(学習済みのLLMに対して追加で事前学習を行う手法で、異なる言語などで言語モデルを活用するときに使われる)を行った。結果、日本語に関するベンチマークデータで、全モデルがベースモデルより