News_TKDE期刊

华为云AI系统创新Lab论文SegTalker被国际顶级会议ACM MM录用

2024年7月16日，多媒体领域顶级国际会议ACM International Conference on Multimedia (ACM MM) 公布了论文录用名单，华为云AI系统创新Lab参与研究的论文《SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing》被主会接收。ACM MM是计算机图形学与多媒体领域的顶级国际会议，被中国计算机学会推荐为A类学术会议。ACM MM 2024将于2024年10月28日至11月1日在澳大利亚墨尔本召开。

本文提出了一种新颖的两阶段语音驱动说话人研究，解决现有模型尤其在细节部分比如牙齿等区域生成质量不高的问题。具体地，通过使用分割图作为中间表征，实现口型和纹理生成的解耦。第一阶段使用语音驱动分割图生成和语音匹配口型的mask序列。第二阶段使用encoder和对应的mask提取不同区域的不同尺度(large、medium、small)的细粒度特征，最后得到不同区域的latent style codes。最后，将style codes和生成的mask序列注入到mask-guided stylegan中实现纹理生成。通过这种方式，我们的模型能更大限度地保留原视频的纹理细节。此外，利用分割图信息，我们的模型天然地能够实现前后景分离和细粒度的人脸编辑，这是目前其它说话人生成模型所不具备的。实验结果表明，在大部分关键指标上尤其是在图像质量上，优于目前的开源模型。

AI 系统创新Lab

AI 系统创新Lab

华为云AI系统创新Lab论文SegTalker被国际顶级会议ACM MM录用

华为云AI系统创新Lab论文SegTalker被国际顶级会议ACM MM录用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线