微软推出智能语音评测服务,注重解决四大技术障碍
微软推出智能语音评测服务,注重解决四大技术障碍
今年
5
月,在微软开发者大会上,他们宣布推出智能语音评测服务。基于
Azure
云的认知服务平台,该服务涵盖语音识别、语音合成等技术,主要应用于各种教师评估、作业练习和语言学习等教学场景。
通过市场调研和反馈,他们将语音评测的重点放在解决以下四大问题上:专业性、实时性、稳定性和(能够给予用户一定的)可定制性。
以专业性为例,语音评测对比的是与母语专家评测的一致性。微软云计算与人工智能事业部资深产品经理马莉莎解释,业内普遍采用皮尔森相关系数来反映两个序列线性相关程度,范围在
-1
到
1
之间。
1
表示完全相关,
0.5
以上为强相关,
-1
则表示完全相反,
0
表示乱序无关,数值越大表示相关度越高。与市场上的主流技术对比评测,微软语音评测在一致性上达到了
0.75
。
马莉莎称,要解决上述问题,语音评测系统除了做要好多语言识别的问题,还要针对不同打分场景,做到包容性和鲁棒性的平衡。
“
在客户真实的场景中要尽量贴近真实的用户使用习惯,用户习惯中的误读、少读都能包容得很好,且精准地进行打分。
”
马莉莎表示,与其他提供语音评测技术的企业相比,她认为微软的语言模型的抗噪能力,以及在垂直领域上针对不同场景的收音需求,都做得比较深入。
数据是语言模型优化的基石。据介绍,微软智能语音评测扩展到了
40
多种语言,每种语言分别积累了数十万小时以上的母语数据进行学习,在此基础上,模型能够适配实时的线上线下应用。微软
Azure
云则提供了算力保障,能够支撑大规模用户的计算需求,并保证用户数据安全性。
也就是说,除了优化模型做好语音识别外,还要做到动态、高实时性地调用大模型,这就要求在总体要平衡多点性能。
目前,微软已将智能语音评测服务落地到相关教育公司的产品中。马莉莎称,微软与客户的合作是灵活多样的模式,简单的调用
API
进进行评测是免费的,但在生产环节的集成会按评测音频的时长计费。
当然,语音评测只是微软在教育解决方案中落地的一个维度,关于老师声音的定制化以及有声课件制作方面,微软正在积极探索。
未来微软的语音评测应用场景也不仅限于教育领域。近期,微软与国内的
NGO
合作联合,利用语音技术为视障学生合成制作了有声书。马莉莎称,语音评测也可以用来评估合成声音语料本身的质量好坏以及发音是否标准,
“
凡是和语音质量,发音有关的需求,都可以用到。
”
微软云计算与人工智能事业部产品总监丁秉公表示,作为一家平台公司,微软语音评测希望与垂直领域的客户合作,为独立软件开发商、系统集成商等二次开发解决方案商提供充分的灵活性,以此把个性化服务推到不同的客户群,打造相应的语音生态。