国内でも生成AIの開発が加速する中、京都府を拠点に研究を行う国立研究開発法人「情報通信研究機構」=NICTでは、豊富な日本語の学習データを強みとした国産AIの開発を進めています。 京都府精華町にあるNICTデータ駆動知能システム研究センターの鳥澤健太郎フェローのチームは、生成AIの基盤となる「大規模言語モデル=LLM」をことし7月、開発に成功したと発表しました。開発にかかった期間はおよそ4か月です。 最大の特徴は、大規模な日本語の学習データです。海外での開発が先行する生成AIでは、学習データは英語が中心で良質な日本語のデータをどう確保するのかが課題となっています。 チームでは、これまで15年かけて膨大な日本語のウェブサイトの情報を収集していて「アノテーター」と呼ばれる専門スタッフおよそ50人が学習データに不要な単語を取り除けるよう調整を行うなどして、ほかにはない良質な日本語のデータを新聞1
![国産生成AIの開発進む「豊富な日本語の学習データが強み」 | NHK](https://cdn-ak-scissors.b.st-hatena.com/image/square/182cee3db9794aa2c205a31b2180b0e74d49d0db/height=288;version=1;width=512/https%3A%2F%2Fwww3.nhk.or.jp%2Fnews%2Fhtml%2F20231201%2FK10014275281_2312012008_1201201213_01_03.jpg)