1. はじめに 本記事では、昨今話題になっている大規模言語モデルの基礎的な内容として、モデルの内部構造や学習の手続き、その応用について紹介します。 2. 大規模言語モデルとは 大規模言語モデル(LLM: Large Language Model)は、機械学習の枠組みで日本語や英語などの言語を数理的に取り扱う生成モデルの一種です。言語を統計的に取り扱う言語モデルの登場は1990年にまで遡り、その後2000年代のニューラル言語モデルや、2017年のTransformerに端を発する学習済言語モデルの登場など、数多くの発展を遂げてきました。この流れの中で、2022年にOpenAIから発表されたChatGPT(GPT-3.5)は、あたかも人間と会話しているかのような流暢な言語の生成ができることで話題になりました。その後、GPT-4(OpenAI)、PaLM2(Google)、LLaMA2(Meta