OpenAIのGPT-4などの大規模言語モデルによって、AI技術が急速に普及しています。しかし、GPT-4をはじめとする大規模言語モデルの多くがクローズドな商用モデルか、あるいは部分的にしかオープンになっていません。「RedPajama」は完全にオープンソース化された大規模言語モデルを開発するプロジェクトで、その第1段階として1兆2000億以上のトークンを含むLLaMAトレーニングデータセットが公開されました。 RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens — TOGETHER https://www.together.xyz/blog/redpajama GitHub -
![無料で商用利用もOKな完全オープンソースの大規模言語モデルを開発するプロジェクト「RedPajama」がトレーニングデータセットを公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/5fe6fa9a70f36a4cb158f34b0aac9667dd33e236/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F04%2F18%2Fredpajama-data-1t%2F00.png)