首页 科技 正文

我和欧阳娜娜一起开发。

鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI

AI新闻播报,开车明星导航,现而今按照文本生成语音的AI手艺,那真是飞入平常公民家——见责不怪了。

在这档口,作为这背后AI语音合成手艺的研发人员,除常规搜集语音数据、演习模子、优化模子……

还能玩出甚么花儿来?

……跟欧阳娜娜一路弄研发,算不算?(误)

“公费追星”是一种若何的体验

故事要从一个不太通俗的周一上午说起。

一大年夜早,网易有道的语音工程师刘银,就跟同事们一路搭上了飞往上海的飞机。

之所以说不通俗,是由于这趟出差不但有工作义务,还依靠了前方后方一众工程师们的一点小期待。

这是有道辞书明星语音二期项目标第一个阶段——演习数据录制。

客岁9月,有道辞书上线了王源的明星语音,成为进修范畴第一个上线该功能的产物,大年夜受用户好评。是以在进一步打磨模子今后,他们筹算一气呵成,上线新的女声明星语音。

而音源,正是刘银和同事们此次要近距离接触互换的欧阳娜娜。

对如许的出差机缘,刘银镇守本部的同事们直言:“恋慕坏了。这哪是出差,根蒂就是粉丝晤面会。”

但其实对刘银来讲,兴奋之余,也并不是没有压力。

在有道辞书的明星语音功能中,熟习的明星声音能为你读出每一个单词、每一个例句。

很明显,他们本身不成能完全地去录制所有的语音。

甚至由于时候成本的关系,最后能真正喂给TTS(语音合成)模子的源语音也异常有限:几个小时的灌音,最后能用的可能只有一小部分。

要用少少的数据,究竟合成出高质量的语音,从收集演习数据最早,就要做到严格的把控。

有道的工程师们为此做了两手筹办。

一方面,连络一期项目标经验,不录单词,只录简单的短句,在有限时候内尽量多地搜集原始数据。

别的一方面,就要靠刘银等人跟欧阳娜娜的临场互换,需要他们以手艺人员的视角来“导演”灌音历程,和欧阳娜娜本人打出合营,以录出可用性更高的语音数据。

所以这场“粉丝晤面会”,还仅仅是一个最早。

若何把欧阳娜娜的声音装进有道辞书里

当然已有过一次上线王源语音的经验,但在演习模子这个环节,包孕刘银在内的有道AI语音团队4人小组,照样破费了2周多的时候在模子的调剂上。

主要的缘由在于,单词和句子所需要的语音合成后果分歧,在建模方面需要划分进行调剂。

同时,针对模子本身,有道的工程师们进行了多次比较尝试,包孕经典的基于留意力的Tacotron2模子,业内最新的Non-Attention架构等,以期实现最接近欧阳娜娜本人声音质感,同时发音正确、地道的合成后果。

例句级别:基于留意力的Tacotron模子

具体而言,在例句级别,工程师们接纳了基于留意力的Tacotron模子。

Tacotron模子利用的是经典的Seq2Seq架构,颠末历程留意力机制来解决编码器息争码器长度不一致的问题。

原始的Tacotron利用了Location Sensitive Attention。这类留意力机制的问题在于,不够鲁棒,且收敛速度较慢,稀奇是在面临数据量较少的环境时,错误谬误稀奇明明。其缘由主要在于,没有充分行使声学模子的单调性这一特点。

对此,有道工程师接纳了改良版的Foward Attention,来替换Location Sensitive Attention,同时对留意力对齐矩阵进行损失落束缚,以晋升模子的不乱性和收敛速度。

别的,根本的Tacotron建模方案在某些发音(如低频发音)上后果不够好。为此,工程师们还接纳了ASR(语音辨认)来打辅助。

颠末历程ASR的辅助建模,合成的句子语音可懂性更强,正确性和韵律方面也有所晋升,可以解决在纯TTS方案中,有一些音发不出来的问题。

单词级别:基于时长模子的Tacotron模子

再说说单词方面。

前面也提到,为了节省时候成本,有道工程师们拿到的演习数据都是短句,没有单词。

这就致使在接纳上述用于例句的TTS方案时,合成的单词读音在韵律感和调子上会呈现一定问题,好比对单音节或双音节单词,呈现反复发音、漏音、语速过快等景遇。

为此,有道工程师们考试考试了业内最新模子架构Non-Attentive Tacotron,颠末历程时长模子来替换留意力较量争论模块。

如许做的优点是,基于时长的模子可以显式地调理每一个音素的发音时长,让合成出来的单词读音更接近真人朗诵的后果。

同时,Non-Attentive模子在贯穿连接模子不乱性方面也更具优势。

而除模子方面的精挑细选、邃密打磨,值得一提的是,网易有道AI语音算法团队此次的新明星语音新增了大年夜量高采样率的英文女声数据,将采样率从16K晋升到了24K,这就让合成语音在音质、听感和真实性方面有了进一步的晋升。

“做产物是严肃的,但手艺答理试错”

从项目启动到究竟上线,此次有道辞书的明星语音功能升级项目,全部研发周期大年夜概延续了一个月的时候。

时候上看照样有点严重,但对研发小组的成员们来讲,对项目标兴奋感远远逾越了追逐deadline带来的焦炙。

缘由很简单——几小我都是按照爱好自愿到场到项目傍边的。

△网易有道AI语音团队

除刘银,小组中其余几人的主要手艺栈都不是语音合成。

好比主要负责例句模子的王晓强,平常更多承当的是语音辨认标的目标的研发工作——这与语音合成几近可以说是一个完全相反的标的目标。

甚至有一名同学,此前的进修、工作内容与深度进修完全不相干,而是传统的声学前端标的目标。

卒业前,曾在多家公司有过演习履历的王晓强坦言:

这类答理跨范畴的手艺文化,实际上是很少见的。

对网易有道AI本身,如许的包涵度也其实可以贴上“大年夜胆”的标签。

要知道,作为一款众所周知的查词东西,有道辞书是网易有道用户量范围最大年夜的产物,哪怕是一个渺小功能的改动都需要严肃看待,更没需要说像明星语音如许主要的功能更新。

但实际上,如许的包涵和信赖,反而给了刘银、王晓强等人更大年夜的动力——本身选择承当的义务,就一定要做好。

从别的一个层面来看,答理研发人员跨范畴进行手艺互换,并实际操作落地,也增进了全部手艺团队的成长——不把手艺视野局限在本身的一亩三分地,在思虑问题时,反而更轻易激起创新的火花。

还有主要的一点是:

在本身感爱好的范畴,有手艺大年夜佬带着飞,不但不用交膏火,甚至还有工资拿,这真是太愉快了。

假如跟网易有道AI语音算法工程师们多聊一聊,就会发现,这支手艺团队老是能把研发做成一件既靠谱又欢欣的事。

他们大年夜都很年青,思惟活跃,脾性跳脱,也更勇于创新和考试考试。但同时,从黉舍到职场,从旧环境到新环境,他们又能用理工科的理性思惟,快速地熟悉到应当“做甚么”、“怎样做”。

这也反映在了一个个遭到用户好评的语音功能上:可以或许主动进行措辞检测的语音翻译功能、英语跟读打分、明星语音……

而且,他们还“上得了厅堂,下得了厨房”。不但能在产物层面延续推下手艺落地,学术、角逐成就也拿得出手。好比客岁,他们就曾在全球语音顶会INTERSPEECH 2020“口音英语语音辨认挑战赛”上名列前茅。

如许的小我成长,背后也反映了网易有道对人才的正视。

有道AI语音团队负责人李庆辉就透露显露,一个脚扎实地的团队,应当给每小我充分的才调阐扬空间,而在这个空间之下,大年夜家可以潜心研究手艺,在专注于本身偏重点的环境下,去打破小我的局限。

而当小我的能力不休打破前进,团队本身也就天然则然会成长起来。

人才,就是公司、团队最大年夜的财富。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.acewise.org/kj/2321.html