Convert text into natural-sounding speech using an API powered by the best of Google’s AI technologies. New customers get $300 in free credits to spend on Text-to-Speech.
2017年、米Googleや米Amazonなどの「スマートスピーカー」と呼ばれるデバイスの普及が日本で始まった。例えば、「ねえGoogle、今日の予定は?」と話しかけると、カレンダーアプリに入力していた予定を流ちょうな日本語で読み上げてくれる。中に人がいるわけではない。デバイスが人の声を認識し、応答となる声を合成しているのだ。 このデバイスが音声で応答するために使用しているコアの技術は、「音声認識」と「音声合成」という2つの技術だ。音声認識は人の声の波形を機械で処理し、どんな文であったかを推定する技術。音声合成は与えられた文やデータから、人が話す音声を合成する技術だ。 ここに、音声認識で推定した文に対して適切な応答文を出力する「対話制御」という技術が加わり、「人の話を聞いて適切な応答を音声で返す」という一連の動作を実現している。 音声認識・合成ともに、コンピュータを利用した研究は1950年
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く