谷歌称语音合成系统Tacotron 2已达人类说话效果

by admin on 2020年4月2日

12月28日消息,据国外媒体WCCF
Tech报道,谷歌表示,其最新版本的人工智能(AI)语音合成系统Tacotron
2几乎与真人声音无法区分。该系统是谷歌的第二代语音转文本技术,它有两个深层的神经网络,用于完美的输出。

图片 1

IT之家12月27日消息
谷歌近日开创性地推出了一款全新的文字转语音系统,名为Tacotron
2,它具有惊人的发音准确性,能够提供与真人声音几乎无法区分开来的发音。

图片 2

众所周知,谷歌近年来在人工智能领域进行了大量实验。今天,谷歌在这个领域中又前进了一步。谷歌方面宣称,旗下AI驱动语音合成系统Tacotron
2的最新版本已经基本达到人类说话的效果。谷歌还上传了一些Tacotron
2的语音小样,来让大家体验一下这个最新科技。

据悉Tacotron
2已经是第二代技术,它由两个深度神经网络组成,一个将文本转换为特殊的图谱,第二个是WaveNet,会读取这个图谱并将其还原为一个真实的声音。

第一个深度神经网络负责将文本转换成频谱图(以视觉方式呈现音频频率,通常是PDF格式),然后将这个频谱图载入到第二个深度神经网络WaveNet(来自Alphabet的AI研究实验室DeepMind)中,Wavenet读取频谱图并生成相似的音频元素。

Tacotron
2是谷歌的第二代语音文字转换技术,结合了两大深度神经网络,实现了近乎完美的输出效果。第一层神经网络负责将文字转化为频谱图,用视效来渲染声音频率。转换为频谱图之后,将其提交给WaveNet,也就是由Alphabet的AI研究实验室DeepMind开发的系统。WaveNet读取频谱图表,并生成与之相近的声音元素。

该系统目前只进行了英语女声的训练,它不仅可以阅读,而且还可以分辨细微差别,如果某个单词在句子中以大写字母突出显示,该系统在阅读这个句子时会为该单词添加一个相应的语调,该系统也能够处理少量的打字错误。

语音转文本并不是一种新技术,对于Mac用户来说,它已经存在了相当长的一段时间。然而,谷歌声称其文本转语音技术优于大多数,几乎无法与人类声音区分开来。

语音文字转换技术当然不是什么新科技了。但谷歌方面宣称其文字转换语音技术高于市面上大部分类似的技术,并与人类发音几无二致。

Tacotron
2还能根据语义来确定单词正确的音调,也能根据标点符号改变句子发音的韵律,甚至能够完美地讲绕口令。

对于完全相同的单词,Tacotron
2可以根据语境来发音。它还可以根据标点符号的不同而有所区分,也可以在读到大写单词的时候加重语气。

Tacotron
2的发音将与上下文进行结合,有别于现在市面上一个词一个词蹦的朗读方式。另外该系统还会对标点符号作出反应,并会对句子中的大写单词进行强调。

更重要的是,Tacotron
2系统不仅仅是某种一直停留在实验室中的技术,谷歌实际上已经使用WaveNet网络在Google
Assistant中生成更为真实的语音,一旦Tacotron
2更加完善后,它将被应用于GoogleAssistant等系统。

来自:cnBeta

玩家想要体验这段对比音频的话,可以点此链接。其中有两段语音小样,而且谷歌并未标明哪一段是由Tacotron
2朗读,哪一段是人类朗读的。但如果你深扒一下文件来源,就能发现哪段音频出自Tacotron
2。

可点击此处试听Tacotron
2发音,点击此处试听其跟真人的发音区别,你能区分开来吗?

在听完语音小样并通过源代码模式找到哪段出自Tacotron
2之手之后,我们可以发现谷歌确实交出了一份让人惊叹的答卷。这个声音确实与人类发音非常接近,虽然并不是完全一致,但也已经非常接近。相比市面上那些机器味十足的技术来说已经好了很多。而且我们还能听出文本中的标点以及相应的节奏变换。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图