首页 > 要闻 > > 正文
2019-11-07 15:47:40

亚马逊在AWS Polly上推出神经文本转语音和新闻播音员风格

导读 亚马逊今天宣布在亚马逊波利(Amazon Polly)推出神经文本转语音和新闻播音员风格,谷歌的WaveNet模仿音调中的压力和语调,而不是超越它,它

亚马逊今天宣布在亚马逊波利(Amazon Polly)推出神经文本转语音和新闻播音员风格,谷歌的WaveNet模仿音调中的压力和语调,而不是超越它,它的云服务将文本转换为语音。

正如亚马逊网络服务技术传播者Julien Simon在博客文章中指出的那样,通过增加自然性和表现力,神经文本转语音可以显着改善语音质量。

至于新闻播音员的风格,使叙述声音对于新闻文章和博客文章等内容“更加真实”,西蒙说它是通过神经文本到语音的底层机器学习算法实现的。“感谢Polly和新闻播音员的风格,[听众] ......可以享受用高质量的声音阅读的文章,听起来就像他们可能期望在电视或广播中听到的那样,”他写道。

像Globe and Mail,Gannett,BlueToad,TIM Media,Encyclopedia Britannica,非盈利教育技术公司CommonLit以及游戏开发商Volley等客户已经通过Polly使用新闻播音员风格。今年1月,亚马逊悄然推出了支持Alexa的设备,用于每日简报和维基百科片段叙述。

新闻主播风格可用于两种英语语音,而神经文本语音可用于11种语音,包括三种美国英语语音和八种美国英语语音。它们都是实时工作和批处理模式,目前它们可以在美国东部(弗吉尼亚北部),美国西部(俄勒冈州)和欧洲(爱尔兰)AWS区域访问。

从第一次语音请求(标准或NTTS)开始,前12个月每月最多100万个神经文本到语音的语音是免费的。在此之后,这是一个有偿的事情。

使用AI生成类似人类的语音

亚马逊在去年年底的一篇研究论文中详述了其关于神经文本到语音的工作(“数据减少对序列到序列神经TTS的影响”),其中研究人员描述了一个可以学习采用新的说话风格的系统从短短几个小时的训练开始 - 相对于几十个小时,可能需要一个配音演员以目标风格阅读。

亚马逊的AI模型由两部分组成。第一个是转换音素的序列的生成神经网络-即与另一个区分开一个字,如声音的感知上不同的单元P,B,d,和吨在垫和轻拍-到谱图的一个序列,或视觉随着时间的变化,声音频谱的表示。第二个是声码器,将这些频谱图转换为连续的音频信号。

音素到频谱图解释器网络是序列到序列,这意味着它不仅仅从相应的输入计算输出,而是考虑它在输出序列中的位置。除了“风格编码”之外,亚马逊的科学家还使用音素序列和相应的光谱图序列对其进行了训练,该风格编码确定了训练示例中使用的特定说话风格。模型的输出被输入到声码器中,可以从任何扬声器中获取频谱图,无论是否在训练期间看到它们。

最终的结果?一种AI模型训练方法,结合了大量中性风格的语音数据,只需几小时的所需风格的补充数据,以及一个能够区分语音元素的AI系统,既独立于说话风格,又独特于样式。亚马逊TTS研究部高级经理安德鲁·布林在之前的博客文章中写道:“基于客户要求的背景,教导Alexa调整她的演讲风格的能力开启了提供以前无法想象的新体验和愉快体验的可能性。”

通过神经文本转语音和新闻播音员风格,亚马逊有效地与谷歌合作,谷歌在2月份推出了云端文本转语音服务中的31种新WaveNet语音和24种新标准语音(带来了WaveNet的总数)声音到57)。它在微软拥有另一个竞争对手,它通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。