News_TKDE期刊

华为云AI系统创新Lab论文Uni-Dubbing被国际顶级会议ACL录用

2024年5月16日，自然语言处理国际顶级会议ACL 2024公布了录用论文结果。华为云AI系统创新Lab参与的研究论文《Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation》被ACL主会议接收。ACL是自然语言处理领域最受关注的国际学术会议之一，属于CCF A类，对发表的文章有着严格的评审标准，以确保所发表的研究成果具有较高的学术价值、原创性和影响力。ACL 2024 将于2024年8月11日至16日在泰国曼谷召开。论文主要内容如下：

在语音合成领域，越来越重视采用多模态语音以提升鲁棒性。该领域的一个关键挑战是音频与对应视频数据集的稀缺性。我们采用了一种方法，在多模态数据集的预训练阶段中整合模态对齐，通过冻结视频模态特征提取组件和预训练权重中的编码器模块，独特地促进了Zero-Shot泛化过程。我们将这种方法称为“Uni-Dubbing”。我们的方法精细调整了多模态和单模态音频数据。在多模态场景中，它实现了31.73%的词错误率（WER），优于之前的33.9%最佳表现。在音调质量和同步等指标上也表现出色。在单模态音频中，它实现了36.08%的WER，展示了对有限数据的适应能力。它在视频翻译和音频生成的各种语言任务中都证明了其领域泛化能力。在433小时的音频数据训练后，它超越了使用200小时音频视觉数据的技术。

AI 系统创新Lab

AI 系统创新Lab

华为云AI系统创新Lab论文Uni-Dubbing被国际顶级会议ACL录用

华为云AI系统创新Lab论文Uni-Dubbing被国际顶级会议ACL录用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线