华为云语音语义创新Lab 4篇论文被自然语言处理领域国际顶级会议ACL 2021接收
近期,自然语言处理顶会ACL-IJCNLP 2021放榜。本次大会共收到3350篇论文投稿,最终有21.3%的论文录用到主会,并额外接收了14.9%的论文到Findings子刊,综合录用率为36.2%。在本次大会中,华为云语音语义创新Lab共有4项研究成果(含Findings)被录取。研究方向主要包括:词法句法分析、关系抽取、医疗文本分析和文本生成等领域。本文将会概要介绍各项成果。
词法句法分析:An In-depth Study on Internal Structure of Chinese Words.
与英文中的字母不同,汉字有丰富而具体的含义。通常,一个词的意义在某种程度上可以由组成它的汉字派生出来。一些先前的句法分析工作提出对浅层词内部结构进行标注从而更好地利用字级别的信息。本文提出将汉语词的深层内部结构建模为包含11个标签的依存树,用于区分词内部结构中不同的依存关系。首先,根据我们最新编写的标注规范,我们手工标注了一个来源于中文宾州树库的包含超过3万个词的词内部结构 (WIST) 树库。为了保证标注质量,每个词都由两个标注人员独立进行标注,由第三个标注者处理标注不一致情况。第二,我们对WIST进行了详细又有趣的分析,揭示了对汉语构词的一些见解。第三,我们提出了一个词内部结构分析的新任务,并基于一个先进的句法分析器进行了基准实验。最后,我们提出了两种简单的编码词内部结构的方法,在句法分析任务中验证了汉语词内部结构的作用。
关系抽取:HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications.
关系抽取是自然语言处理中的一个重要主题。当前的关系抽取方法在通用数据集上通常都取得了非常好的效果,但是这些方法在应用到实际场景中时,往往会出现较大程度的性能下降。在本文中,我们分析了上述的情况,并发现出现这种性能下降的原因是实际场景中通常存在更多的困难样例(hard cases)。为了使得关系抽取的模型在实际场景中也有鲁棒的表现,我们提出了一个样例导向的构建框架,并依托这个框架构造了一个困难样本关系抽取数据集(HacRED)。这个提出的数据集HacRED包含标注自9231篇文档中的65525个关系实例。这些关系实例的类型十分丰富。HacRED是目前最大的中文文档级关系抽取数据集之一,并且具有非常高的数据质量,其F1值为96%。最后,我们将目前最佳的关系抽取模型应用在了HacRED数据集上,并进行了深入的分析。结果表明,这些模型的效果相比人类的表现仍然有非常大的差距,这也表明,目前现有的关系抽取模型在解决实际场景中的困难样例时仍需要更多的努力。
医疗文本分析:Analyzing Code Embeddings for Coding Clinical Narratives.
在医疗活动中,医疗专业人员审查临床报告,以分配用于计费和护理管理的医疗代号。这个手工审查的过程效率十分低下并且容易出错,因为其中包含着微妙的一对多的映射。最近出现了一些关于自动学习ICD(国际疾病分类)代号的工作,它们学习报告的低维特征和编码之间的映射关系。尽管这些方法提出了新颖的神经网络模型用以编码不同类型的代号信息,但是医疗代号中的哪些信息有助于效果的提升,并且为什么能提升效果仍然是未知的。在本文中,我们利用一个单层的深度学习基线模型,对比了不同的方式去表征或嵌入这些医疗代号基于他们的文本、结构、和统计特性。我们是在MIMIC-III重症监护病房数据库的出院报告上进行了定量实验。我们也定量分析了对代号嵌入贡献最大的案例,并展示了代号嵌入对于预测模糊和倾斜的代码十分重要。
文本生成:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
本文研究了如何自动生成描述知识图谱中事实关系的自然语言文本。在few-shot的设定下,我们充分利用预训练模型的强大的语言理解和生成能力。我们介绍了三项主要的贡献,即表征对齐来解决知识图谱编码和预训练模型间的语义差距、关系偏移的知识图谱线性化以获得更好的输入表征、多任务学习架构以学习知识图谱和文本之间的对应关系。在三个数据集上的丰富实验展示了我们的模型在知识图谱到文本生成上的有效性。值得称道的是,我们的模型能够在仅有几百条有标注数据的情况下,达到一个非常不错的性能。
完整论文列表:
An In-depth Study on Internal Structure of Chinese Words. In ACL 2021.
HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications. In Findings of ACL 2021.
Analyzing Code Embeddings for Coding Clinical Narratives. In Findings of ACL 2021.
Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models. In Findings of ACL 2021.
随时获取华为云AI最新动态,欢迎关注华为云AI公众号: