聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收

聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

        2022年5月7日至13日,人工智能语音领域国际顶级学术会议IEEE ICASSP 2022(2022 IEEE International Conference on Acoustics, Speech and Signal Processing)在线上召开,华为云语音语义创新Lab联合2012先进计算与存储Lab类脑计算团队,携层层审核后被接收的语音驱动虚拟说话人的论文《Meta Talk: Learning to Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face with High Definition》参会。 IEEE ICASSP是语音处理及其应用领域的顶级会议,录用十分严格,今年的IEEE ICASSP投稿ID突破9000,根据官方结果,最终中稿1800篇被接收。


       在本次录取的工作中,华为研究团队主要围绕语音驱动虚拟人进行研究。语音驱动虚拟说话人模型,旨在生成与输入语音能够口型匹配的任意目标人像虚拟说话人视频。目前业界开发出了一些先进的虚拟说话人生成模型,包括语音驱动的3D虚拟人视频生成模型(AudioDVP) 和2D语音-口型生成模型(Wav2lip)。华为研究团队经过多次实验,发现AudioDVP仅有在数十小时大量训练数据下才能具有良好唇音同步效果,对应目标人物模特的训练数据录制成本太高,一旦有更换模特的需求,则需要大量的人力物力来做重新准备。另外,Wav2lip虽然在超过30小时的视频数据下构建了预训练模型,具有较好的泛化能力,但是生成的视频清晰度较低,无法满足应用需求


       基于这些观察,如下图一,华为研究团队提出了一种新的虚拟说话人的生成方法Meta Talk融合了AudioDVP和Wav2lip各自的优点,通过自适应裁剪模块、3D人脸模型重建和渲染等模块相互配合,突破了仅需3分钟的原始视频,即可实现生成唇形同步的4K清晰度且达到真实照片逼真程度的虚拟说话人视频的技术。

        华为研究团队将此方法与SOTA方法进行了测试和比较它们对于任意音频的驱动性能,包括ATVG、Wav2lip、AudioDVP和MakeIttalk。如下表所示的用于任意输入语音对口型性能的定量评价的度量LSE-D和LSE-C,以及用于评价图像质量的度量FID和SSIM给出的比较结果表明,所提方法的唇音同步性能与Wav2Lip相当,且生成的视频图像质量最高。此外,如下图所示,在用任意语音进行驱动时,所提方法与其他四种方法相比,其生成的虚拟说话人的口型与源视频人物的口型的匹配程度更高,并且生成的人像视频可以显示更多的面部纹理细节,甚至时人脸脸上的雀斑都能清晰可见。

       相关论文请点击链接:https://ieeexplore.ieee.org/document/9747284