これまでの大規模言語モデルは基本的にテキストデータのみを扱うことが前提でした。Metaとケンブリッジ大学の研究者チームは、この限界を打破する新たな手法を提案しました。 参照論文情報 タイトル:Prompting Large Language Models with Speech Recognition Abilities 著者:Yassir Fathullah, Chunyang Wu et al. 所属:Meta AI、ケンブリッジ大学 URL:https://doi.org/10.48550/arXiv.2307.11795 関連研究 MRIデータから音声を合成する手法 UCバークレーなどが開発 AudioGPT:音声認識から歌声合成まで 人の音声からAIが「性格」を予測 音声データを直接理解するAI 研究の目的と手法 この研究の主要な目的は、大規模言語モデルが音声データを直接理解し、