华为云语音语义创新Lab 4篇论文被自然语言处理领域国际顶级会议EMNLP 2021、CoNLL 2021接收

EMNLP 2021(The 2021 Conference on Empirical Methods in Natural Language Processing)将于2021年11月7日至11日在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次CoNLL 2021(The SIGNLL Conference on Computational Natural Language Learning)是由ACL SIGNLL主办,每年举办一次,今年将会和EMNLP2021联合举行。本次华为云语音语义创新Lab共有4项研究成果被录用。研究方向主要包括:视频语言定位,句法分析、词法分析等领域。以下是成果速览。


视频语言定位:Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos.

本文解决视频语言定位的问题。传统的方法主要按照从上到下(top-down)的框架进行研究,其核心思想是预先定义一些视频段,然后去选择出最匹配的视频段。虽然这类方法取得了不错的效果,但是这些视频段都是手工提取的,并且有冗余的情况,使得网络的运行效率吧较低。最近,从底到顶(bottom-up)的方法框架由于其出色的运行效率,获得了广泛的关注,这类方法直接预测视频的每一帧是目标视频段边界的概率。然而,这类从底到顶的方法在性能上通常相较从上到下的方法要差一些,这是因为它们没有考虑到视频段与文本的交互。在这篇文章中,我们提出了一个适应性生成候选段的网络(Adaptive Proposal Generation Network, APGN),在保持视频段与文本交互的同时,能加速网络的运行效率。具体实现上,我们首先在视频上进行了一个前后景分离,然后基于包含动作的前景帧,去适应性地生成候选视频段。通过这种方式,手工设计式的候选片段提取可以被抛弃,并且使得冗余的视频段数量大大减少。然后我们设计了一个候选片段巩固模块,去进一步增强生成的候选视频的语义特征。最后,我们使用从上到下的框架基于这些生成的候选视频段,去定位目标视频段。我们在三个挑战性的数据集上做了实验,结果展示我们的APGN模型显著超过了之前的最佳模型。

1.png

图一:视频语言定位APGN网络框架


视频语言定位:Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding.

解决视频语言定位这个问题的关键在于,如何将从未剪辑的视频中抽取出的特征,以及从文本中的提取的语言特征,进行有效地对齐。现有的方法通常利用普通的注意力机制并以单步的方式来进行对齐。但是,这种单步的注意力机制在实际情况中往往是不够的,因为模态间和模态内的复杂关系通常需要通过多步推理来获得。在这篇文章中,我们针对视频语言定位任务提出了一个迭代对齐网络(IA-Net),该网络以多步的形式迭代地交互模态间和模态内的特征以获得准确的定位。具体来说,我们在迭代推理的过程中,在非匹配的视频帧-单词之间,通过补充可学习的多模态特征去缓解无处关注(nowhere-to-attend)的问题,并以一个并行的方式去增强基本的注意力机制。为了进一步在每一个推理步骤中造成的注意力不对齐的问题,我们也在每一个注意力模块后,设计了一个修正模块去修正对齐的信息。利用这种迭代注意的方式,我们的IA-Net能逐步鲁棒地捕捉到视频和语言间细粒度的关系,来逐渐进行时序边界的推理。在三个具有挑战性的数据集上的实验也证明了我们的方法比之前的最佳方法要好。

2.png

图二:视频语言定位IA-Net网络框架


句法分析:APGN: Adversarial and Parameter Generation Networks for Multi-Source Cross-Domain Dependency Parsing

得益于深度学习的强大表征能力,尤其是预训练技术的发展,使依存句法分析在域内(In-domian)场景中取得了巨大的性能提升,并为目标域提供了丰富的训练数据标签。然而,句法分析研究者必须面对更为现实的场景,也就是当这些标签数据只存在于几个固定领域时,句法分析的性能仍然会急剧下降。在这篇文章中,我们针对多源跨领域的依存句法分析任务,提出了对抗的参数生成网络(Adversarial and Parameter Generation Networks, APGN)。具体来说,该网络基于双仿射解析器(Biaffine Parser)分别设计了两个子网络,一个是参数生成网络,用来区分领域特定(domain-specific)特征,另一个是对抗网络,用来学习领域不变(domain-invariant)特征。我们在近期发布的包含4个领域的多领域依存句法分析数据集NLPCC-2019上进行了实验,结果显示了我们的模型在跨领域任务的性能上显著超过了之前的基于BERT的最佳方法。

3.png

图三:句法分析APGN网络框架


词法分析:A Coarse-to-Fine Labeling Framework for Joint Word Segmentation, POS Tagging, and Constituent Parsing

针对分词(WS)、词性标注(POS)和成分分析(PAR)的联合任务,最直接的方法是将词语级别(word-level)的树转化为字级别(char-level)的树。但是,这种方法存在两个问题,第一个是当标签集的数量很大(例如大于600),或者输入文本很长时,会急剧地增加计算成本;第二个是无法排除的非法树,这些树往往包含冲突的生成式规则(production rules),从而影响模型的可靠性评估。在这篇文章中,我们针对上述两个问题,提出了一个面向WS-POS-PAR联合任务的两阶段的粒度从粗到细(coarse-to-fine)的标记框架。首先,在粗粒度标记阶段,模型会输出一个括号树,其中每个节点对应于四个标签(phrase,subphrase,word,subword)中的一个,同时通过约束CKY解码的方法来保证树的合法性;之后,在细粒度标记阶段,模型将每个粗粒度标签拓展为最终的细粒度标签。在三个基准数据集上的实验显示了我们的方法比之前的最佳方法要好。

4.png

图四:两阶段的标记网络框架



完整论文列表:

Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos. In EMNLP 2021.

Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding. In EMNLP 2021.

APGN: Adversarial and Parameter Generation Networks for Multi-Source Cross-Domain Dependency Parsing. In EMNLP 2021(findings).

A Coarse-to-Fine Labeling Framework for Joint Word Segmentation, POS Tagging, and Constituent Parsing. In CoNLL 2021.




随时获取华为云AI最新动态,欢迎关注华为云AI公众号:

B8483785-C43D-4374-9026-618F8EBE3597.png