まるで本物の人間を相手にしているように、コンピューターと自由に会話するーーこれはコンピューターエンジニアにとって永年の夢かもしれない。人工知能(AI)プログラムがプロの囲碁棋士を打ち破るなど、AI分野で華々しい成果をあげている英グーグル・ディープマインドが、今度はサンプリングした人間の生の声をもとに、ニューラルネットワークの深層学習技術を使って、自然で人間の声に近いリアルな合成音声を作り出すことに成功した。 開発されたシステムは「ウェーブネット(WaveNet)」。英語と標準中国語(マンダリン)で、本物の人間にはかなわないものの、現在グーグルが持つ最高レベルのテキスト・トゥー・スピーチ(TTS)システムよりも自然な発話ができるとしている。 しかも、表情を盛り込んだりアクセントも変えられる。音声信号全般を扱えることから、音楽にも応用でき、クラシック音楽での学習をもとに、即興で作曲した新しいピ
Research WaveNet: A generative model for raw audio Published 8 September 2016 Authors Aäron van den Oord, Sander Dieleman This post presents WaveNet, a deep generative model of raw audio waveforms. We show that WaveNets are able to generate speech which mimics any human voice and which sounds more natural than the best existing Text-to-Speech systems, reducing the gap with human performance by ove
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く