大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 (NIIエヌアイアイ、所長:黒橋くろはし 禎夫さだお、東京都千代田区)の大規模言語モデル研究開発センター(LLMC)は、主宰する LLM 勉強会(LLM-jp)の対話WGの活動の成果として、Web上のオープンなデータソースから構築した2つの大規模音声音響データセット(CC Audio および Archive.org Audio Dataset)を一般公開しました。対話WGは、NII/LLMC科学主幹の東中竜一郎教授が主担当を務め、早稲田大学の小川哲司教授、慶應義塾大学の高道慎之介准教授との緊密な連携のもと推進される研究グループです。 これらのデータセットは、大規模ウェブクロールデータセット「Common Crawl」と世界最大級のデジタルライブラリ「Archive.org」から得られた音声音響データへのURLリストと、これらの

