了解华为云最新动态
近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领四所高校学生组成的联合团队摘得WSDM Cup大赛2020“论文引用意图识别任务”金牌。
WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。
本次WSDM Cup共有三个赛题任务,华为云夺金赛题内容为“论文引用意图识别”:比赛提供一个论文库(约含80万篇论文),同时提供对被引用论文的引用文本描述,参赛选手需要根据论文引用描述从论文库中匹配三篇最相关的论文。
论文是人类最前沿知识的媒介,如果可以理解论文中的数据,可以极大地扩充计算机理解知识的能力和范围。在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。如果通过计算机可以自动地理解、识别描述对应的被引论文,不仅可以加深我们对科研脉络的理解,还能在科研知识图谱、科研自动问答系统和自动摘要系统等领域有所进步。
华为云语音语义创新Lab带领华南理工大学、华中科技大学、武汉大学、江南大学学生组成的联合团队,针对该问题制定了“整体召回+重排+集成”的方案。在整体召回阶段,通过轻量化的文本相似度计算方法(如BM25、TFIDF、Word2Vec等),以较少的计算代价从大规模论文库中检索出给定查询的可能相关的论文集合。在重排阶段,通过计算量大但更准确的方法对这些候选论文中的每一篇论文计算和引用描述的相似度值并重新排序,例如采用基于深度学习的预训练语言模型BERT等。华为云团队观察到,赛题中所给语料都是生物医学领域,因此采用了基于生物医药和科学领域语料进行预训练的BioBERT和SciBERT语言模型对论文进行重排。通过对所有模型的结果进行集成,最终得到三篇最相关的论文。
华为云在本次比赛中运用的文本匹配技术,可广泛用于搜索、对话机器人、知识图谱构建等领域。
凭借在自然语言处理领域的全栈技术积累,华为云连续斩获了多个相关领域权威比赛冠军。2019年10月华为云语音语义创新Lab在DigSci科学数据挖掘大赛(学术论文搜索匹配大赛)上夺冠,精准率超过第二名5个百分点。在2019 CCF大数据与计算智能大赛决赛中,华为云语音语义创新Lab获得金融实体级情感分析大赛冠军,体现了在文本情感分析和知识图谱领域的实力。
目前,华为云语音语义相关服务已经成功应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等具有语音识别、语言理解、知识管理等需求的业务领域。