Google LLC今天推出了它所说的语音转换实验性新系统,该系统删除了早期模型中涉及的许多步骤。
更好的是,它产生的合成翻译保留了原说话人声音的声音,因此实际上听起来像是该人正在使用目标语言讲话。
谷歌表示,其Translatotron工具简化了将语音翻译成不同语言的复杂过程。现有的翻译系统(例如Google Translate)必须采用一种绕行方式,首先将原始语音转录为文本,然后将其翻译为目标语言的文本,最后使用此新文本来合成翻译后的语音。
显然,所有这些步骤都可以减慢速度,但是Translatotron可以加快速度,因为它使用的是单个模型,因此无需首先将语音转换为文本。
Google AI工程师Ye Jia和Ron Weiss在博客中写道:“该系统避免将任务划分为不同的阶段。” 他们说,结果应该是更快的翻译速度和更少的复合错误。
Jia和Weiss补充说:“据我们所知,Translatotron是第一个可以将一种语言的语音直接转换为另一种语言的语音的端到端模型。” “它还能够在翻译后的语音中保留说话者的声音。”
Translatotron系统通过使用“频谱图”来工作,该频谱图是音频信号频率频谱随时间变化的视觉表示,作为其输入训练数据。编码器网络用于捕获说话者的声音,而“多任务学习”则用于预测他们说的单词,并将其翻译为目标语言。
Google承认该系统仍处于试验阶段,用于测量机器翻译质量的BLEU评分发现其准确性目前仍低于传统翻译工具。不过,谷歌表示正在努力改善该系统。
Constellation Research Inc.的分析师Holger Mueller告诉SiliconANGLE,Translatotron是一个有趣的概念,并指出转录正成为云提供商的赌注。
穆勒说:“理解语音,然后将其翻译成所需语言的结合正在提高游戏的吸引力,这就是Google对Translatotron所做的事情。” “我们已经接近孩子要问为什么他们甚至还要去学习外语的时候了。”
确实,在几年之内,确实可能不必讲多种语言。Translatotron的一个可能应用程序可能是Google Assistant中新的“解释器模式”,该功能已于今年早些时候添加到Google Home扬声器中。口译员模式目前依靠Google的常规翻译工具,可以在27种语言对之间翻译语音。
为了更深入地了解Translatotron的工作原理,Google提供了有关此主题的 白皮书。