华为云AI系统创新Lab论文Uni-Dubbing被国际顶级会议ACL录用

华为云AI系统创新Lab论文Uni-Dubbing被国际顶级会议ACL录用

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

      2024年5月16日,自然语言处理国际顶级会议ACL 2024公布了录用论文结果。华为云AI系统创新Lab参与的研究论文《Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation》被ACL主会议接收。ACL是自然语言处理领域最受关注的国际学术会议之一,属于CCF A类,对发表的文章有着严格的评审标准,以确保所发表的研究成果具有较高的学术价值、原创性和影响力。ACL 2024 将于2024年8月11日至16日在泰国曼谷召开。论文主要内容如下:

       在语音合成领域,越来越重视采用多模态语音以提升鲁棒性。该领域的一个关键挑战是音频与对应视频数据集的稀缺性。我们采用了一种方法,在多模态数据集的预训练阶段中整合模态对齐,通过冻结视频模态特征提取组件和预训练权重中的编码器模块,独特地促进了Zero-Shot泛化过程。我们将这种方法称为“Uni-Dubbing”。我们的方法精细调整了多模态和单模态音频数据。在多模态场景中,它实现了31.73%的词错误率(WER),优于之前的33.9%最佳表现。在音调质量和同步等指标上也表现出色。在单模态音频中,它实现了36.08%的WER,展示了对有限数据的适应能力。它在视频翻译和音频生成的各种语言任务中都证明了其领域泛化能力。在433小时的音频数据训练后,它超越了使用200小时音频视觉数据的技术。