AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリングの禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータの総量が1年で約5%、高品質なデータの約25%が使えなくなったことがわかりました。 Data Provenance Initiative https://www.dataprovenance.org/consent-in-crisis-paper Data for A.I. Training Is Disappearing Fast, Study Shows - The New York Times https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html AIモデル