近年、各企業がこぞって開発を進めている大規模言語モデルで、ある問題が指摘されている。同モデルを訓練するために必要な質のよい大量のデータが、早ければ2026年にも枯渇するというのだ。 by Tammy Xu2022.11.29 33 13 大規模言語モデルは現在、人工知能(AI)研究で特に活気ある分野の1つだ。各社は、理路整然とした記事のみならず、コンピューター・プログラムすら書くことのできる「GPT-3」のようなプログラムを競ってリリースしようとしている。だがAIの将来を予測しているチームによると、今、差し迫った問題があるという。それは、モデルを訓練するためのデータが枯渇するかもしれないという問題だ。 言語モデルは、ウィキペディアやニュース記事、科学論文、書籍などの情報源の文章を使って訓練される。近年は、正確性や汎用性の向上を目的に、モデルを訓練するためのデータをさらに増やそうという傾向が
![大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か](https://cdn-ak-scissors.b.st-hatena.com/image/square/e23bd48d56bb3af8f5568c8e60d7777a8b4e931c/height=288;version=1;width=512/https%3A%2F%2Fcdn.technologyreview.jp%2Fwp-content%2Fuploads%2Fsites%2F2%2F2022%2F11%2F24183504%2FRunning-out-Words-1400x787.jpeg)