クラウドコンピューティングサービスを提供するSalesforceのAI研究部門・Salesforce AI Researchが、1兆ものテキストトークンを含むオープンソースのマルチモーダルデータセット「MINT-1T」を公開しました。 GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset. https://github.com/mlfoundations/MINT-1T MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens https://blog.salesforceairesearch.com/mint-1t/ B
![1兆のテキストトークン・34億個の画像・PDF・ArXivの論文などを含むオープンソースのデータセット「MINT-1T」をSalesforceが公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/7345de064483085a9c5972f619c6a13d7128e24b/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F07%2F25%2Fmint-1t-open-source-multimodal-dataset%2F00.jpg)