はじめに横浜国立大学大学院 理工学府 修士2年の藤井巧朗です。8月から株式会社レトリバにインターンとして参加させていただいております。インターンでの成果の第一段として記事「日本語LLMの推論速度検証」を書かせていただきましたので、そちらもよろしければご覧ください。本記事ではインターンでの成果の第二段として「LLMによる疑似学習データ生成」について紹介します。本記事の内容は言語処理学会第30回年次大会(NLP2024)にて発表予定です。NLP2024の原稿には載せきれなかった内容も掲載しておりますので、是非ご覧ください。 想定する読者: 自然言語処理(特にLLM)に興味がある方 自然言語処理を扱う会社のインターンに興味のある方 LLMを実運用したいが、コストが高すぎて悩んでいる方 時間がない方向けまとめ: LLMによって学習データ収集コストと運用コストを下げたい。 日本語タスクにおいて、LL