Googleが「AudioPaLM」を発表しました。AudioPaLMはテキストベースの言語モデルである「PaLM 2」と音声ベースの言語モデルである「AudioLM」を統合したマルチモーダルアーキテクチャであり、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるとのことです。 [2306.12925] AudioPaLM: A Large Language Model That Can Speak and Listen https://doi.org/10.48550/arXiv.2306.12925 AudioPaLM https://google-research.github.io/seanet/audiopalm/examples/ AudioPaLMは、AudioLMから話す速さ、声の強さ、高さ、沈黙、イントネーションなどのパラ言語情報を保持する
![Googleが音声から「テキストと音声の両方」に翻訳できる大規模言語モデル「AudioPaLM」を発表](https://cdn-ak-scissors.b.st-hatena.com/image/square/32881829821d5396cdde0fde354577ce43597f3d/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F06%2F27%2Fgoogle-audiopalm%2F00_m.png)