Speech-to-Text は、数百万時間の音声データと数十億の文章でトレーニングされた Google Cloud の音声向け基盤モデル Chirp を利用できます。この点が、各言語固有の教師ありデータを大量に使用していた従来の音声認識技術とは異なります。これらの技術により、ユーザーはより多くの音声による言語や方言に対応できるようになり、認識と音声文字変換が改善されます。 広範な言語サポートにより、グローバルなユーザーベースに対応できます。短い音声データ、長い音声データ、さらにストリーミングの音声データも音声文字変換します。Speech-to-Text は、次世代のユニバーサル音声モデルである Chirp により、より正確で世界中をカバーする翻訳と認識も実現します。Chirp は、100 以上の言語にわたる数百万時間分の音声と 280 億の文章に対する自己教師ありトレーニングを使用して構
