Googleが「AudioPaLM」を発表しました。AudioPaLMはテキストベースの言語モデルである「PaLM 2」と音声ベースの言語モデルである「AudioLM」を統合したマルチモーダルアーキテクチャであり、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるとのことです。 [2306.12925] AudioPaLM: A Large Language Model That Can Speak and Listen https://doi.org/10.48550/arXiv.2306.12925 AudioPaLM https://google-research.github.io/seanet/audiopalm/examples/ AudioPaLMは、AudioLMから話す速さ、声の強さ、高さ、沈黙、イントネーションなどのパラ言語情報を保持する