华为云知识图谱服务--结构化数据实践(上)
【摘要】 如今,知识图谱已经助力了很多热门的人工智能应用场景,例如聊天机器人、智能问答、智能推荐等。华为云知识图谱服务能帮助用户从0到1快速构建知识图谱,并提供本体管理、图谱管理、图谱构建、图谱智能问答、实体链接等功能。本次实践记录了使用华为云知识图谱服务构建一个小规模电影领域图谱,并开启图谱智能问答的全流程。
建议先熟悉华为云知识图谱服务文档,了解使用流程和相关概念:https://support.huaweicloud.com/productdesc-kg/kg_02_0001.html图谱构建流程:
华为云知识图谱目前还在公测当中,使用免费,直接申请公测即可。获得公测资格后,会有短信通知。tips:准确填写个人信息,清楚描述自身业务场景,可以更快获得公测资格~ 下面咱们开始:
1. 准备数据
用户需要自己准备输入数据,上传到OBS(华为云对象存储服务)。此次演示使用该服务提供的“最佳实践”数据。该份数据可用于构建一个小规模的电影-人物图谱。
FAQ:
1. 什么是OBS?如何上传数据到OBS?
OBS是华为云对象存储服务,在搜索栏搜索即可查到。可以在该服务网页上直接上传数据,或者下载该服务开发的工具ObsBrowser(视频中用的它)。更多信息请查看OBS文档。
2. 知识图谱服务支持哪些格式的结构化数据作为输入?
目前支持json、csv、excel三种格式的结构化数据。此次示例用的json格式数据,它是一个多行紧凑的json文件,每行是一个完整的json串。可以参考其文档:https://support.huaweicloud.com/usermanual-kg/kg_01_0010.html
2. 创建本体
FAQ:
1.什么是本体?
本体(ontology)源于哲学中的本体论,哲学中的本体论旨在刻画存有本身。计算机和信息科学领域的本体侧重于描述认知的概念框架,表达概念之间的语义关系。我们这一步创建本体,实际上就是为此次要构建的知识图谱画了一个概念框架,它反映了人们对一个领域的认知。具体来说,它描述了图谱中有哪些类型的概念、概念之间存在怎样的关系、概念包含哪些属性。
3.创建图谱
准备好数据,并创建好本体后,我们可以通过流水线配置,创建知识图谱。
FAQ:
1.什么是实体类型字段?
对json格式输入来说,该字段表明输入数据中,每行json里,哪个字段对应的值是表示实体类型的,比如此次示例中是“entity_type”这个字段。我们在准备数据时,就应该设置这样一个字段来表示每行json数据对应的实体类型。
4.知识映射
配置完信息抽取后,需要配置知识映射的规则。设置抽取、映射前后的相关字段。
FAQ:
1.什么是实体唯一标识字段?
指输入的源数据中,能够唯一标识实体的主键字段。在准备输入数据时,应该设置这样一个字段来唯一标识该实体。此次示例的输入数据中“url”这个字段是实体唯一标识字段。
5.知识融合
知识融合是指融合来自多个数据源关于同一实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。具体请看视频。
随时获取华为云AI最新动态,欢迎关注华为云AI公众号: