AI系统创新Lab_News_华为云语音语义创新Lab 2篇论文被多模态顶级会议 ACM MM 2022接收

华为云语音语义创新Lab 2篇论文被多模态顶级会议 ACM MM 2022接收

视频语言定位：Reducing the Vision and Language Bias for Temporal Sentence Grounding.

尽管之前的视频语言定位的模型已经达到了很好的性能，但是这些方法通常倾向于捕捉数据集中的一些选择性偏差，而不是真正学习到了非常鲁棒的多模态推理能力，然而这种鲁棒性的推理能力对于数据集中出现次数非常少的视频-语言对非常重要。在这篇文章中，我们研究了上述的选择性偏差，并提出了一个去偏视频语言定位模型（Debiasing-TSG， D-TSG）。D-TSG模型可以在视频模态和语言模态中过滤和移除负向偏差以增强模型的通用性。具体来说，我们从两个方面去缓解这种选择性偏差问题：1. 特征蒸馏，我们构建了一个多模态去偏分支首先捕捉到视觉和语言中的偏差，然后我们采用了一个偏差鉴定模块去显著识别负偏差并从多模态特征中移除它们。2. 对比样本生成，我们构建了两种类型的负样本去强迫模型准确地学习对齐多模态语义，并进行完整的语义推理。我们将提出的D-TSG模型应用在常见的视频语言定位的样例以及低频出现的样例上，在三个数据集上都达到了最佳性能。

歌声合成声码器：SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation

近年来，深度学习在语音合成领域取得了重大进展，但在歌声合成领域，由于歌声具有连续发音较长、高频变化明显以及音色表现力强等特点，使得现有的为语音合成而设计的声码器并不能直接应用于歌声合成中，这些声码器会导致生成的频谱图出现低频毛刺和高频重建模糊的情况。这项工作中，我们提出了 SingGAN，这是一种为高保真歌声合成而设计的生成对抗网络。具体来说，1）为了缓解低频中的毛刺问题，我们提出了将F0构建的源激励加入模型训练，以稳定长时间连续信号的生成；2）SingGAN引入不同尺度的全局和局部判别器，丰富低频细节，促进高频重构；3）为了提高训练效率，SingGAN 包括了辅助谱图损失和子带特征匹配惩罚损失。据我们所知，SingGAN 是第一个针对高保真歌声合成而设计的声码器。我们对 SingGAN 的评估展示了具有更高质量（MOS 4.05）歌声样本的最新结果。此外，SingGAN 在单个 NVIDIA 2080Ti GPU 上的采样速度比实时速度快 50 倍。我们也进一步表明，SingGAN 可以很好地推广到未见歌手的歌声合成上。如果对我们的歌声合成效果感兴趣的话，可以登入 https://SingGAN.github.io/ 查看效果。

相关论文请点击链接：https://arxiv.org/abs/2110.07468

AI 系统创新Lab

AI 系统创新Lab

华为云语音语义创新Lab 2篇论文被多模态顶级会议 ACM MM 2022接收

华为云语音语义创新Lab 2篇论文被多模态顶级会议 ACM MM 2022接收

7*24

备案

专业服务

退订

建议反馈

售前咨询热线