华为云AI系统创新Lab实习生杨思程获得创新新星奖!
华为云AI系统创新Lab实习生杨思程获得创新新星奖!
活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理
活动时间: 2020年8月12日-2020年9月11日
活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;
活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理
华为与清华大学道元班联合培养的实习生杨思程在华为云AI系统创新Lab实习期间参与语音驱动数字人肢体动作生成研究,表现突出,荣获创新新星奖。
入职华为云AI系统创新Lab一年来,杨思程的相关论文已被CVPR2023 Highlight、IJCAI2023、ICMI2022等人工智能顶级会议接收,同时有一篇论文ACM MM2023在投。杨同学创新能力强、工作高效、积极主动思考,对前沿技术的探索和突破充满热情,展现出了对科研的浓厚兴趣。
相关工作介绍
The ReprGesture entry to the GENEA Challenge 2022 (IMCI 2022)
该工作研究了一种基于多模态表示学习的自动手势生成系统,基于多模态表示学习方法,能够从音频、文本和位置/旋转矩阵特征中提取有用信息。具体来说,使用WavLM特征进行音频处理、FastText特征进行文本处理,以及位置和旋转矩阵特征进行手势处理。每个模态都被投影到两个不同的子空间:模态不变性和模态特定性。为学习模态无关的共同特性并捕捉模态特定表示的特征,训练过程中使用了基于梯度反转层的对抗分类器和模态重建解码器。手势解码器利用所有与音频节奏相关的表示和特征生成合适的、具有良好节奏手势。视频链接:https://youtu.be/KJJYEqyOq5U。
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation (CVPR 2023)
该工作设计了一种基于量化和相位引导的动态手势匹配框架,用于解决语音驱动的手势生成中的挑战。具体来说,该方法首先提出一个手势向量量化(VQ)自编码器模块,用于学习总结有意义的手势单元的码本。通过使用每个代码表示唯一的手势,有效地解决了随机抖动的问题。然后,使用Levenshtein距离将多样化的手势与不同的语音对齐。基于音频量化的Levenshtein距离作为相应手势的语音相似度度量有助于更合适地匹配手势和语音,并成功解决了语音和手势对齐的问题。此外,引入相位来根据音频上下文或节奏的语义指导最佳的手势匹配,从而灵活生成基于文本或语音的手势,使生成的手势更加自然流畅。大量实验表明,该方法在语音驱动的手势生成方面优于最新的手势生成方法。视频链接:https://youtu.be/5GKjFclT618。
DiffuseStyleGesture: Stylized Audio-Driven Co-Speech Gesture Generation with Diffusion Models (IJCAI 2023)
这篇论文设计了一种基于扩散模型的语音驱动手势生成方法,用于在计算机动画中实现超越言语的手势艺术。由于手势的多样性和将手势节奏和语义与相应语音匹配的难度,自动共语手势生成是一个具有挑战性的任务。为了解决这些问题,该工作提出一种基于扩散模型的语音驱动手势生成方法:DiffuseStyleGesture。它可以根据任意长度的给定语音生成高质量、语音匹配的、风格化的和多样化的协同语音手势。具体来说,该工作在扩散模型中引入跨-局部注意力和自注意力,以生成更好的语音匹配和逼真的手势。然后,使用classifier-free指导训练模型,通过插值或外推来控制手势风格。此外,该工作通过使用不同的初始手势和噪声来提高生成的手势的多样性。实验表明,该方法在语音驱动手势生成方面优于最新的手势生成方法。视频链接:https://youtu.be/Nzom6gkQ2tM。