富士通研究所は7月27日、人間の声に近づいた音声合成技術を開発したと発表した。同技術による合成音声は、音声品質の評価方法であるCMOS(Comparison Mean Opinion Score)評価において、プロのナレーションの品質の約80%となる高いスコアを達成している。 これまで、合成音声をより自然で人間の音声に近づけるには幾つかの課題があった。例えば、人が文章を読み上げる際、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム(発話リズム)で発声しているが、音声合成で人間らしい流暢な語り口を実現するためには、このような発話リズムを適切に制御することが必要となっていた。また、合成音声は入力した文章に適した音声波形をつなぎ合わせることにより生成されるが、人間の声と区別がつかないほどに歪みのない声質を実現するためには、どのような文章の入力に対しても最適な音声波形を用意できる音声