华为云语音语义创新Lab多模态论文被顶级会议CVPR 2021接收

最近,国际计算机视觉与模式识别会议CVPR 接收结果出炉。本次大会收到来自全球共7015篇有效投稿,最终有1663篇工作被录取,录用率约为23.7%。来自华为云语音语义创新Lab的多模态方向的工作《Context-aware Biaffine Localizing Network for Temporal Sentence Grounding》,在激烈的竞争下,突出重围,被大会接收。

CVPR是全球视觉和模式识别的顶级会议,在2020年谷歌学术发布的学术期刊和会议影响力榜单中排名第五,仅次于Nature、Science等老牌期刊,同时也是整个人工智能领域最受关注的会议,在全世界具有巨大的影响力。

在本次录取的多模态工作中,华为云语音语义创新Lab在业界首次提出双仿射定位框架以解决视频语言定位问题。视频语言定位是从视频中定位出与自然语言描述相对应的短视频片段的任务,由于自然语言描述的灵活性,该任务十分具有挑战性。在该任务上取得突破,有助于利用自然语言对丰富的视频内容进行理解,打破语言和图像间的语义壁垒,建立更智能的人机交互。

1.png

1:用于视频语言定位的双仿射定位框架

为了解决视频语言定位问题,传统的工作依赖于手工设计的候选视频片段,根据候选片段与语言描述间的匹配程度来选择目标片段,然而这种手工设计是十分依赖经验的。在本文中,来自华为云的研究者提出了一个新的定位框架,如图1, 通过引入融合了上下文信息的双仿射机制来同时打分视频中所有的开始、结束时间对,最后选出得分最高的时间对作为目标片段的起止边界点,这一框架彻底摆脱了对手工设计候选片段的依赖。该工作中提出的框架在三个公开数据集上进行了实验,效果均显著超过之前的模型。

华为云语音语义创新Lab本着开放创新、勇于探索、持续突破关键技术的精神,致力打造业界一流的知识计算竞争力,面向行业客户提供领先的语音语义AI能力。

 


随时获取华为云AI最新动态,欢迎关注华为云AI公众号:

B8483785-C43D-4374-9026-618F8EBE3597.png