华为云AI系统创新Lab论文SegTalker被国际顶级会议ACM MM录用

华为云AI系统创新Lab论文SegTalker被国际顶级会议ACM MM录用

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

       2024年7月16日,多媒体领域顶级国际会议ACM International Conference on Multimedia (ACM MM) 公布了论文录用名单,华为云AI系统创新Lab参与研究的论文《SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing》被主会接收。ACM MM是计算机图形学与多媒体领域的顶级国际会议,被中国计算机学会推荐为A类学术会议。ACM MM 2024将于2024年10月28日至11月1日在澳大利亚墨尔本召开。

       本文提出了一种新颖的两阶段语音驱动说话人研究,解决现有模型尤其在细节部分比如牙齿等区域生成质量不高的问题。具体地,通过使用分割图作为中间表征,实现口型和纹理生成的解耦。第一阶段使用语音驱动分割图生成和语音匹配口型的mask序列。第二阶段使用encoder和对应的mask提取不同区域的不同尺度(large、medium、small)的细粒度特征,最后得到不同区域的latent style codes。最后,将style codes和生成的mask序列注入到mask-guided stylegan中实现纹理生成。通过这种方式,我们的模型能更大限度地保留原视频的纹理细节。此外,利用分割图信息,我们的模型天然地能够实现前后景分离和细粒度的人脸编辑,这是目前其它说话人生成模型所不具备的。实验结果表明,在大部分关键指标上尤其是在图像质量上,优于目前的开源模型。