AI系统创新Lab_News_聚焦虚拟说话人生成技术，华为云论文被人工智能语音领域顶级会议ICASSP2022接收

聚焦虚拟说话人生成技术，华为云论文被人工智能语音领域顶级会议ICASSP2022接收

2022年5月7日至13日，人工智能语音领域国际顶级学术会议IEEE ICASSP 2022（2022 IEEE International Conference on Acoustics, Speech and Signal Processing）在线上召开，华为云语音语义创新Lab联合2012先进计算与存储Lab类脑计算团队，携层层审核后被接收的语音驱动虚拟说话人的论文《Meta Talk: Learning to Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face with High Definition》参会。 IEEE ICASSP是语音处理及其应用领域的顶级会议，录用十分严格，今年的IEEE ICASSP投稿ID突破9000，根据官方结果，最终中稿1800篇被接收。

在本次录取的工作中，华为研究团队主要围绕语音驱动虚拟人进行研究。语音驱动虚拟说话人模型，旨在生成与输入语音能够口型匹配的任意目标人像虚拟说话人视频。目前业界开发出了一些先进的虚拟说话人生成模型，包括语音驱动的3D虚拟人视频生成模型(AudioDVP) 和2D语音-口型生成模型(Wav2lip)。华为研究团队经过多次实验，发现AudioDVP仅有在数十小时大量训练数据下才能具有良好唇音同步效果，对应目标人物模特的训练数据录制成本太高，一旦有更换模特的需求，则需要大量的人力物力来做重新准备。另外，Wav2lip虽然在超过30小时的视频数据下构建了预训练模型，具有较好的泛化能力，但是生成的视频清晰度较低，无法满足应用需求。

基于这些观察，如下图一，华为研究团队提出了一种新的虚拟说话人的生成方法Meta Talk，融合了AudioDVP和Wav2lip各自的优点，通过自适应裁剪模块、3D人脸模型重建和渲染等模块相互配合，突破了仅需3分钟的原始视频，即可实现生成唇形同步的4K清晰度且达到真实照片逼真程度的虚拟说话人视频的技术。

华为研究团队将此方法与SOTA方法进行了测试和比较它们对于任意音频的驱动性能，包括ATVG、Wav2lip、AudioDVP和MakeIttalk。如下表所示的用于任意输入语音对口型性能的定量评价的度量LSE-D和LSE-C，以及用于评价图像质量的度量FID和SSIM给出的比较结果表明，所提方法的唇音同步性能与Wav2Lip相当，且生成的视频图像质量最高。此外，如下图所示，在用任意语音进行驱动时，所提方法与其他四种方法相比，其生成的虚拟说话人的口型与源视频人物的口型的匹配程度更高，并且生成的人像视频可以显示更多的面部纹理细节，甚至时人脸脸上的雀斑都能清晰可见。

相关论文请点击链接：https://ieeexplore.ieee.org/document/9747284

AI 系统创新Lab

AI 系统创新Lab

聚焦虚拟说话人生成技术，华为云论文被人工智能语音领域顶级会议ICASSP2022接收

聚焦虚拟说话人生成技术，华为云论文被人工智能语音领域顶级会议ICASSP2022接收

7*24

备案

专业服务

退订

建议反馈

售前咨询热线