聚焦演讲数字人动作生成技术,华为论文被人工智能计算机视觉领域顶级会议CVPR2023接收

聚焦演讲数字人动作生成技术,华为论文被人工智能计算机视觉领域顶级会议CVPR2023接收

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

        2023年2月28日,人工智能领域国际顶级学术会议IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) 公布论文名单,华为云AI系统创新Lab联合2012诺亚方舟实验室参与研究的论文《Co-speech Gesture Synthesis by Reinforcement Learning with Contrastive Pre-trained Rewards》通过层层审核后被接收。 CVPR是计算机视觉领域的顶级会议,录用十分严格,今年的CVPR 共接受投稿9155篇, 最终2360篇被接收。

        在本次录取的工作中,华为研究团队主要围绕语音驱动数字人手势生成进行研究。语音手势生成本质上是一个 "多对多 "的问题,而目前业界开发出了一些先进的数据驱动数字人生成模型,仍然难以处理语音音频和手势之间的复杂关系。此外,为了保证整体的流畅性和一致性,必须同时考虑到上下文信息和打出手势时的后续效果。因此,手势合成是一个连续的决策问题,而不是演讲和手势之间的简单匹配。

        为解决上述问题,华为研究团队提出了一种基于强化学习的演讲数字人手势生成方法RACER。RACER由三部分组成,以离线方式进行训练,并用于实时手势生成。首先,为了从无限的动作空间中提取有意义的手势,RACER采用了VQ-VAE模型来学习紧凑的手势表示,这大大减少了动作空间。第二,构建一个基于GPT的模型的Q值网络,该模型在生成手势的一致性序列方面具有天然的优势。第三,受对比语言-图像预训练(CLIP)方法的启发,RACER提出一种对比性语音-手势预训练方法来计算奖励(Reward)。该奖励评估能够将上下文信息整合到动作评估中,并引导强化学习智能体探索语音和手势之间的复杂关系。在两个数据集上的实验结果表明,RACER在客观指标和人类主观判断方面都优于现有的方法。这证明了强化学习在语音手势合成任务中的优势和潜力。