首页 科技 正文

在网易做语音算法工程师是一种怎样的体验?

鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI

一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下若何的成就?

时限是,10天

近日,全球语音顶会INTERSPEECH 2020「口音英语语音辨认挑战赛」后果发布,一支名叫「大年夜耳朵图图喵喵喵」的团队摘下了两大年夜赛道的第二名和第三名。

参赛选手是这位:

△大年夜耳朵图图本喵

啊不,其实来自他们傍边。

说起网易有道与AI语音手艺相干的产物,大年夜家或许都不生疏,好比丁磊多次安利、上市都带着的有道辞书笔……

比拟在市场上获得的承认,很多人可能不会想到,有道AI语音背后的团队非长年青:成立不到两年,大年夜部分都是应届生,来自知名语音尝试室,或海外高校进修项目。

「参赛实际上是验证手艺方案」

此次拿奖的时来和Harry Wu(均为诨名),就是本年7月刚刚到场网易有道的应届生。

事实上,打这场角逐,对他们而言更像是一次对工作功能的「突击考试」:被通知要参赛时,距离提交测试后果的截至日期只剩下10天了。

时候紧急,两人一时组队,又是代表团队第一次出征算法赛事,但在心态上他们倒还真一点也不慌。

用有道之前堆集的手艺去参赛,10天也足够了。攻坚克难了这么久,是时刻拿出来检讨一下了。

INTERSPEECH 2020「口音英语语音辨认挑战赛」由中国较量争论机学会、西北工业大年夜学、上海交通大年夜学、新加坡南洋理工大年夜学等多家重量级机构连络举行,共分为两个赛道:

Track1是口音种类辨认,参赛者需要利用官方供应的各类口音英语演习数据,演习语种分类模子。

Track2则是口音英语语音辨认,参赛者需要利用划定礼貌限制的演习数据,演习语音辨认模子。

简单来讲,一方面是要做英语口音的分类,别的一方面是要做语音辨认,把带口音的英语语音转成文字。

时来和Harry的工位就挨在一路,两人当即一合计,感觉在语音辨认方面,根基可以原封不动地用上现成的手艺——有道辞书、精品课、云笔记等一系列产物里都有ASR手艺的身影,平常平凡的研发工作中,早已考虑到了复杂口音的环境,辨认正确率和响应速度都是颠末实战检讨的。

而在口音分类这个较量新奇的义务上,他们正在研究中的多语种手艺方案正好可以或许派上用处:

本来会感觉相干的手艺方案还处在尝试室阶段,要实际利用起来还需要学术界进一步验证。但既然角逐有这个机缘,正好可以拿这个方式实验一下。

轨范员打角逐,就是直接开干,效率拉满——就在工位上随时会商。而事后两人回忆起来,印象最深的不是时候有多紧、加了多少班,恰正是设较量争论法、测试后果的这个历程:

一最早,在口音分类这个全新的义务上,两人想到这会跟措辞人的特点有较量强的相干性。而在引入这一信息今后,他们的方案还真在开辟集上获得了使人欣喜的后果。

但在测试集开放今后,进一步的验证后果却差强人意。直到角逐结束,测试集发布,他们才发现测试集里措辞人的数量,是演习集和开辟集加起来的差不多10倍,即一个措辞人异常复杂的场景。

虽然说碰上了如许那样的小挫折,但其实对两位语音算法工程师而言,这反而加倍判断了他们攻关AI语音手艺的决心:语音范畴手艺相对成熟,但远没有到「做完了」的程度,实际的复杂场景、各类各样的噪音、方言口音,都仍有值得研究的地方。

至于最后的后果,其实可以说是「分身其美」。

当然筹办照样有些急急,没能拿下冠军,但对初出茅庐的网易有道语音团队而言,面临强劲的业内敌手,初次「出击」能拿到顶会挑战赛的二等奖,照样证清楚明晰现有手艺方案可行、新的假想值得进一步鼓动。

别的一方面,团队组长孙艳庆也坦承,参与角逐对全部语音团队来讲,进修到了行业中新的设法和手艺,打开了后续开辟的新思绪。

「窍门」:手艺以落地为导向

其实比起纯挚去打角逐、发论文,假如和一线的开辟者们多聊聊,就可以明明地感到感染到,网易有道的这支语音团队长短常务实的——以手艺落地为导向,以用户反馈为指标。

孙艳庆谈到,在内部,手艺方案的鼓动一般有两种门路。

一种是来自营业真个需求。手艺团队要做的,是去评估现有的手艺是不是可以或许解决问题,并真正落地到产物中,给用户带来优异的体验。

别的一种则来自于工程师们对新手艺、新用户需求的敏感度。假如判定一种新手艺会被大年夜范围地利用,手艺团队也会提前进行响应的布局。

而评价功能的指标则加倍直接:用户体验。

这类脚扎实地的气概,也给时来、Harry如许的职场新人留下了深切的印象。

我们大年夜部分的手艺,究竟城市聚焦到异常具体的产物上面。不会去做在将来一段时候看来,意义不是很大年夜的一些工作。手艺假如只是逗留在学术层面上,就没举措真正流行、成长起来。落地对手艺而言是一个异常异常焦点的点。

解决用户切实的问题,解决产物中的痛点,或许正是在如许的导向之下,当然团队仅成立了不到两年的时候,但在产物层面,网易有道在语音方面的很多手艺点已跻身行业前列。

好比语音辨认(ASR)。以网易有道辞书为例,对话翻译、发音指点,各类功能的实现都离不开精准的语音辨认。而颠末测试,有道语音辨认手艺在一些场景上辨认正确率逾越98%,而且,不止支持中文、英文,还支持日、韩、法、德等多种措辞。

在语音合成(TTS)方面,有道语音合成引擎音色切近亲近真人,一样支持中、英、日、韩、葡等多种措辞。在过硬的手艺根本之上,本年9月,有道辞书还用TTS手艺实现了王源明星语音的上线,后果遭到了用户的普遍好评。

而且,为了更好地处事于产物,这支范围其实不算大年夜的团队,笼盖的手艺点却很周全:从灌音、拾音环节最早,到中央的语义理解,再到语音辨认合成,都有触及。可以说,在手艺上已构成了较量完全的链条。

把「脚扎实地」写进价值不雅的团队

事实上,能以一支小而精的团队支持起复杂营业背后的焦点算法,团队内部的气氛是手艺实力之外的别的一个主要影响身分。

假如你问有道语音团队的工程师们这支团队的特点是甚么,就可以获得如许几个关头词:年青、活跃、脚扎实地。

由于年青、活跃,即使是新人融入起来也完全没有压力,非论是手艺的互换照样平常平凡的相处,都可以各抒己见。

别的一方面,当然团队成员们遍及年数不大年夜,却个个「身怀特技」。作为组长,孙艳庆认为,一个脚扎实地的团队,应当给每小我充分的才调阐扬空间,而在这个空间之下,大年夜家潜心研究手艺,在专注于本身偏重点的环境下,去打破小我的局限。

脚扎实地的价值不雅延续在全部有道AI团队。不然则在语音方面,有道的AI能力还笼盖神经收集翻译(NMT)、图象辨认(OCR)和自适应教育等等。

而且,其发力深耕的这些AI手艺,都切切实实落在了产物上,让C端用户有了最直不雅的体验:

NMT翻译正确率行业领先,支持12种措辞的中文互译,9种措辞的英文互译。

OCR可以匡助实现线下进修资料在线化。对中文文本的辨认正确度到达97.5%,对英语文字的辨认正确度为95.3%,对中英文夹杂文本的辨认正确度为96.2%,已支持102种主流措辞文字辨认。

AI行业已颠末了“风口飞猪”的时期,加倍务实的市场加倍垂青手艺的落地。当泡沫散去,唯有脚扎实地的团队才能在一代代产物的不乱推出中,扎实生根。

也正是由于如许的气氛,在卒业之际,时来、Harry等人绝不踌躇地谢绝了其他offer,选择到场网易有道。

嗯,一定不是由于这里常常聚众吸猫。(划失落)

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.acewise.org/kj/1585.html