大規模言語モデルが機能するためにはインターネット上の膨大なデータで訓練する必要がある。今後、AIが生成した低品質のWebページがネット上に急増すると、そのデータで訓練された大規模言語モデルの性能が劣化することが懸念されている。 by Scott J Mulligan2024.08.01 9 この記事の3つのポイント AIモデルは低品質のAI生成データで訓練されると徐々に劣化する 合成データを追加しても問題ないが高品質で多様なデータが重要だ データの出所を特定し、人間が作成した元データを重視する必要がある summarized by Claude 3 人工知能(AI)モデルは、インターネットから取得した膨大な量のデータを使って訓練することで機能する。ところが、低品質のコンテンツで埋め尽くされたWebページをAIがどんどん量産するにつれ、そのプロセスが揺るがされる危険性が増している。 ネイチャ
![生成AIのデジタル劣化問題、ゴミがゴミを生み出す最悪の未来](https://cdn-ak-scissors.b.st-hatena.com/image/square/ad55d68588e02df563643ea00cdce1910632c3a0/height=288;version=1;width=512/https%3A%2F%2Fwww.technologyreview.jp%2Fwp-content%2Fuploads%2Fsites%2F2%2F2024%2F07%2Fouroboros2-1400x787.jpg)