Speech-to-Text は、数百万時間の音声データと数十億の文章でトレーニングされた Google Cloud の音声向け基盤モデル Chirp を利用できます。この点が、各言語固有の教師ありデータを大量に使用していた従来の音声認識技術とは異なります。これらの技術により、ユーザーはより多くの音声による言語や方言に対応できるようになり、認識と音声文字変換が改善されます。 広範な言語サポートで、グローバルなユーザーベースに対応。短い音声データ、長い音声データ、さらにストリーミングの音声データも音声文字変換します。また、Speech-to-Text は、次世代のユニバーサル音声モデルである Chirp 3 を使用して、より正確な音声文字変換を世界中で利用できるようにしています。 Chirp 3: 音声文字変換は、100 以上の言語にわたる数百万時間分の音声と 280 億の文章に対する自己教

