米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル
![NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース](https://cdn-ak-scissors.b.st-hatena.com/image/square/bcfaecd5c76b79716feda00d4f2cc92772b46b0b/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2406%2F16%2Fcover_news060.jpg)