微软亚洲研究院的大数据与大智慧
微软亚洲研究院的大数据与大智慧
编者按 :微软研究院年度内最大的节日——微软技术节(TechFest 2012)近期隆重开幕。本届技术节以“自然人机交互”和“大数据”为焦点,微软亚洲研究院带去了近40项最新技术,其中“将单一语言的文语转化变为混合语言”项目就是与数据交互的典型。下面就让我们一窥究竟,看看如何从大数据中提炼大智慧吧!
(图片来自于互联网)
在技术节上,来自 的近 40 项创新技术获得了来自微软产品部门和各界嘉宾的关注。微软亚洲研究院院长 表示,“作为微软在海外最大的基础研究机构,微软亚洲研究院始终坚持通过技术创新推动整个计算机科学领域的发展,并帮助改善人们的计算体验。我们希望能有更多微软亚洲研究院的创新成果转化到微软产品中,加速实现这些激动人心的计算体验。”
在微软亚洲研究院展示的技术中,“将单一语言的文语转化变为混合语言”技术可利用一名说话人的单一语言录音合成出不同语言的训练语料库,以此构建统计模型的多语言的文语转换系统;“高保真面部动画捕捉”技术充分利用最先进的动作捕捉技术和 3D 扫描技术,以获取具有逼真的动态皱纹和精细的面部细节的高保真 3D 面部表情;“城市地区建筑物自动解析”技术能够让用户仅凭一张图像就能展开市区 3D 之旅;“ Windows Phone 和 Kinect 上的语言学习游戏”则侧重于如何在不同微软产品平台上获得愉快的“寓教于乐”的语言学习体验。下面就让我们来看看其中三个精彩的项目吧!
将单一语言的文语转化变为混合语言
语音用户界面需要利用文语转化( text-to-speech )合成语音技术来“说出”语音合成的另一种语言,有时人们甚至希望用混合的不同语言来表达。例如,一个人在国外,而他并不熟悉当地语言,这时如果导航仪能够用混合语言的模式发出指令,就会很方便,也就是说,导航仪指令能够将街道名称等专有名词以当地语言的形式表达,而路线方向则用这个人的母语来表达。混合语言文语转化要求用户能够同时标准说出这两种语言,但是通常这样的人才很难找到。
该项目展示了一种新方法,可将用户所说的话翻译成另一种语言播放出来,并保留用户自己说话时所具有的口音、音色和语调,听起来就像本人亲自说的一样。微软首席研究官里克•雷斯特演示了这款软件的功能,他说了一段英语,然后利用这款软件把这段话翻译成了西班牙语、意大利语和中文普通话播放了出来。结果,这三种语言的发音听起来非常像拉希德本人。
使用这个语音翻译系统,用户需要进行约一个小时的训练,为自己的语音建模,并与微软的标准文字-语音模式融为一体,用于对目标语言的翻译。以微软的标准西班牙语模式为例,标准西班牙语模式有一个“ S ”的发音,用户训练后,就可以用自己发的“ S ”音来替代。按照这样的步骤,对微软西班牙语文字-语音模式中的所有单个音素进行处理。目前,这种方法可以实现微软语音平台支持的所有26种语言间的互译,这些语言涵盖了全球多数重要的语言。更多项目介绍和示例,请看
高保真面部动画捕捉
“高保真面部动画捕捉”展示了一种高保真 3D 面部表现的新方法,用来获取逼真的动态皱纹和精细的面部细节。该方法充分利用最先进的动作捕捉技术和 3D 扫描技术,以获取面部表现。该捕获面部表现的系统兼具静态面部扫描系统的空间分辨率,以及动态捕捉系统的采集速度。
现有的脸部和表情捕捉手段包括基于标记的动作捕获和高分辨率扫描仪。在基于标记的技术中,需要将小反光点固定在被摄者的脸上,当他的表情变化时,这些反光点之间的相对位置变化就会被记录在视频上。这种方法能够准确地捕捉不断变化的表情,但空间分辨率较低,无法捕捉表情变化的细节。另一方面,高分辨率扫描仪能够捕捉到人脸的所有细微之处,甚至包括细小的皱纹和皮肤毛孔,但通常只能适用于静态姿势。经过专门配置的高速摄影机也可用于捕捉面部表情,但它们价格昂贵,而且只能提供较少的面部细节。
基于这两种捕捉技术的特点,研究团队试图将基于标记系统的动作捕捉精准度与高分辨率扫描仪的丰富细节结合起来。研究人员还希望从计算的角度,提升捕捉和识别的效率,这样就把重建精确面部表情所需的数据量减到最小。
下一步,研究小组利用激光扫描仪捕捉高保真的面部扫描。然后,将这些扫描与基于标记的面部数据中的对应画幅相匹配。他们使用新的算法,实现了面部扫描的互相配准。最后,研究小组综合运用动作捕捉信息和面部扫描信息,重建演员当时所做的实际表情,其所产生的图像既捕捉到了脸上的“大”运动,又捕捉到了皮肤纹理和皮肤运动的精致细节。
Windows Phone 7和Kinect上的语言学习游戏
“ Windows Phone 7 和 Kinect 上的语言学习游戏”是一个语言学习项目,侧重于如何在各个微软平台上促进愉快的“寓教于乐”体验:
- SpatialEase :用一个 Xbox 360 Kinect 游戏学习语言,这是一种将语言与思想和行动相联系的学习方式。学习者必须迅速理解第二种语言的命令,例如对“把左手向右移动”这句话的翻译,同时相应地移动自己的身体。
- Tip Tap Tones :这是一个用 Windows 手机游戏学习中文发音的游戏——一种高效的对耳朵和大脑进行再培训的手机游戏,能够快速而准确地感知带有声调的中文音节。
- Polyword Flashcards :这是具备综合性技能游戏的“网络抽认卡”。在我们的自适应学习算法——已转移到了必应词典,在其基础上,我们创建了一个 HTML5 平台,用于深度个性化的学习,并将语言学习、游戏和探索融为一体。
请看详细项目介绍
更多 2012 微软技术节的精彩内容,请关注
相关 阅读 :
[记里克•雷斯特
2 012 微软技术节开幕演讲]( )
欢迎关注
**微软亚洲研究院人人网
主页: **
微软亚洲研究院微博: