日本語事前学習済み言語モデルであるKARAKURI LM 70B v0.1と、それを会話形式にファインチューニングしたKARAKURI LM 70B Chat v0.1をご紹介します。 KARAKURI LMは、Llama 2を基に開発した事前学習済み言語モデルです。 日本語の語彙を追加し、日本語と多言語コーパスを混ぜて追加の事前学習を行うことで、Llama 2の日本語能力を強化しています。 KARAKURI LM Chatは、KARAKURI LMをファインチューニングしたモデルです。 公開されている会話データセットと独自で開発した非公開の会話データセットを混ぜて学習させています。 ファインチューニングで用いた会話データセットには、日本語トークンがわずか2.5%しか含まれていないにもかかわらず、公開時点で、MT-Bench-jpベンチマークにおいて日本語のオープンモデルの中で最高性能を記