为开发人员引入云文本到语音服务

导读互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天

互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网，上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件，接下来这篇文章给大家说说互联网科技的一角。

谷歌云平台博客发布了周二的公告，介绍了云端语音转语音。

Cloud AI产品经理Dan Aharon说：“开发人员一直在告诉我们他们希望在他们自己的应用程序中添加文本到语音，所以今天我们将这项技术带到了Google Cloud Platform with Cloud Text-to -言语。”

云文本到语音是关于由机器学习提供支持的文本到语音转换。

作为一个API，云文本转语音网站说，您可以跨应用程序和设备创建与用户的交互。Cloud Text-to-Speech支持可以发送REST或gRPC请求的应用程序或设备。这包括手机，PC，平板电脑和物联网设备(例如汽车，电视，扬声器)。

什么样的真实应用程序适用?用例包括呼叫中心自动化和物联网设备的交互式响应。

他说，Cloud Text-to-Speech已经在帮助客户为最终用户提供更好的体验。

(SiliconANGLE的罗伯特霍夫说：“ 自11月以来，已有数十名阿尔法用户尝试使用它。”)

客户包括Cisco和Dolphin ONE。后者将Cloud Text-to-Speech集成到其产品中; 他们的用户可以创建“自然的呼叫中心体验”。

什么是Google云平台?这是一套云计算服务，运行在Google内部用于Google搜索和YouTube等产品的同一基础架构上。现在，TechCrunch的 Frederic Lardinois表示，“开发人员将可以访问公司本身目前用于其智能助理及Google地图方向的DeepMind开发的文本到语音引擎。”

进入WaveNet神经网络架构 - 直接生成原始音频波形。

Aharon在博客中写道，“Cloud Text-to-Speech还包括一系列使用WaveNet构建的高保真语音，WaveNet是DeepMind创建的原始音频的生成模型.WaveNet合成更自然的语音，平均产生语音音频。比其他文字转语音技术更喜欢。“

Cloud Text-to-Speech采用先进的语音技术; Deep Mind在机器学习模型中的研究，以产生模仿人类声音的语言已成功。演讲听起来很自然，其团队声称它将与人类表现的差距缩小了50%以上。

Lardinois指出了WaveNet对语音特殊贡献的原因：

“与之前的努力不同，WaveNet不会根据短语音片段的集合进行语音合成，这些片段往往会产生您肯定熟悉的机器人声音。相反，WaveNet使用机器学习模型对原始音频进行建模。创造一个更自然的演讲。“

Lardinois还简要介绍了WaveNet及其如何解决所有重要的响应速度。

“大约一年前谷歌首次谈到了WaveNet。从那以后，它将这些工具转移到了一个新的基础设施，该基础设施位于公司自己的Tensor Processing Units之上。这使它能够比以前快1000倍地生成这些音频波形，因此生成现在，第二个音频只需要50 毫秒。“

它允许开发人员用30种声音合成自然发声的语音。此外，它还提供多种语言和变体。该网站称它支持12种语言和变体的32种声音。

(这位作家用两种语言试了一下。两次尝试看起来都很棒。)

TechCrunch的 Frederic Lardinois 指出，开发人员将能够自定义服务将产生的MP3或WAV文件的音调，语速和音量增益。

博客中的Aharon提供了定价信息和文档的链接。