检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备图谱数据 数据是知识图谱的基础。在创建知识图谱时,需要提前将创建图谱的数据上传至OBS。 数据格式要求 XLSX文件 该类型为结构化数据输入格式。使用XLSX文件,即表格文件作为数据源时,文件必须为.xlsx格式,文件中每一个工作簿为一类数据,工作簿名为数据类型名。每个工作簿
"人物", "object": "地点"} train_data.json一行一句json字符串,表示一条标注数据。其中“text”是文本,“spo_list”是spo三元组的list,每个spo三元组包含7个元素,“predicate”为三元组谓词,“object_type”为宾语类型
如何上传基础数据至OBS 使用KG创建知识图谱时,首先需要将基础数据上传至华为云对象存储服务(OBS)桶中。您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。然后再进行数据的上传,OBS上传数据的详细操作请参见上传文件。
预览图谱 针对已创建的知识图谱,您可以预览指定实体的不同结构形式知识图谱。 前提条件 已创建知识图谱,详情请见智能一键构建图谱和普通配置构建图谱。 已发布图谱版本,详情请参见发布图谱版本。 进入图谱预览页面 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,
结构化数据创建图谱 数据是知识图谱的基础,在知识图谱服务创建知识图谱时,需要从对象存储服务(Object Storage Service,简称OBS)导入用于构建知识图谱的基础数据。知识图谱服务支持的数据包括XLSX、CSV、JSON、多行单句文本格式,详情请见数据格式要求,其中
的相似度均满足阈值,就可判断这两个实体实际上指代的是一个实体。 每组可添加多个判断融合的属性,最多添加9个。 “相似度函数” 判断属性相似度需要选择相似度函数,当前支持两种相似度函数,一种是“EditSim”(编辑距离),一种是“JaccardSim”(Jaccard距离)。 说明:
入实体类型、抽取函数及抽取前后的数据字段,才能进行配置信息映射、配置知识融合等操作。 基本概念 信息抽取是从基础数据中抽取待创建图谱的实体、属性信息以及实体间的相互关系。目的是从原始数据(包括结构化数据或非结构化数据)中抽取结构化的信息。 配置方式 信息抽取分为结构化抽取和非结构
配置知识融合时,如何选择融合标识符和配置属性 知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例
融合的配置产生的结果是否符合预期。 背景介绍 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例
配置信息抽取后,为什么查询不到实体数据 问题描述 配置信息抽取后,查询不到实体数据。 问题原因 创建图谱后,需要发布图谱版本,才能查询图谱中的实体数据。 发布图谱版本 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击图谱卡片,进入图谱详情页面。 默认在
配置完流水线的图谱,如何修改数据 已通过流水线配置完成构建的知识图谱,如果想要修改数据,可通过全量更新或增量更新图谱的方式,更新图谱。 全量更新图谱 针对已经创建的知识图谱,您可以全量更新图谱,即使用新的数据源更新知识图谱。 增量更新图谱 针对已经创建的知识图谱,您可以增量更新图
配置知识映射简介 在创建知识图谱时,当您配置信息抽取后,您需要配置信息映射,设置抽取映射前后的相关字段。 基本概念 知识映射是建立从基础数据抽取出的结构化信息与知识图谱本体的映射关系,例如抽取出的有关电影结构化信息与图谱本体映射关系如图1所示。 图1 实体电影的知识映射关系 配置方式
物。例如某一具体的电影(人物或关系),可称作实体。 关系 关系是知识图谱三元组的元素之一,指实体与实体之间的语义关系,比如张三是李四的同事,实体“张三”与实体“李四”的关系是同事关系。 图1 本体 数据源配置 数据是知识图谱的基础。创建知识图谱之前,必须收集基础数据用来构建知识图谱。
配置完图谱,运行时报错“OBS对象不存在”怎么办 问题描述 普通构建图谱,所有流程均配置完,单击“生成图谱”后,右上角报错“OBS对象不存在”。 解决方法 报错原因一般是OBS桶或OBS对象加密,请检查OBS桶或OBS是否加密。 如果加密,请重新建一个不加密的OBS桶,即不要勾选“开启默认加密”。创建OBS桶
在创建知识图谱之前,您需要创建图谱的本体,用于组织知识图谱信息结构。 基本概念 实体 实体是有可区别性且独立存在的某种事物。例如某一具体的电影(或人物或关系),如电影“霸王别姬”,可称作实体。 概念 概念指是抽象的、普遍的想法,是充当指明实体、事件或关系的范畴或类的实体。例如本体如图1所示,“film”、“people”可称作概念。
公共响应参数 表1 公共响应消息头 名称 描述 Content-Length 响应消息体的字节长度,单位为Byte。 Date 系统响应的时间。 Content-type 发送的实体的MIME类型。 父主题: 数据结构
Content-type 发送的实体的MIME类型。 是 application/json Content-Length 请求body长度,单位为Byte。 POST/PUT请求为可选, GET不包含 3495 X-Auth-Token 用户Token。 是 MIINRwYJKoZIhvcNAQ
型,您可以在KG模型管理页面创建抽取模型、创建并发布模型版本,用于创建知识图谱过程中的信息抽取。 在KG服务管理控制台上自定义信息抽取模型是一种基于schema约束的中文信息抽取模型,即从自然语言文本中抽取三元组的模型,因此仅适用于抽取基础数据格式为txt文本的自然语言短句。 自定义模型流程
怎样配置实体唯一标识字段 实体唯一标识字段 实体唯一标识字段指能识别每个数据的唯一字段,该字段在所有数据中具有唯一性,能唯一代表所对应的数据,类似于数据的“身份证”。 例如如下数据的唯一标识字段为“url” ,因为该字段能唯一代表该数据,因此在配置实体唯一标识字段时,“唯一标识字段”的文本框中填写“url”。
由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下: 数据格式 数据格式为短文本txt格式,文件内容示例如下: 张三的生日是1990年1月1日,身高175cm,出生于北京。 李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。 ... ... 数据划分