检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
右上角报错“OBS对象不存在”。 解决方法 报错原因一般是OBS桶或OBS对象加密,请检查OBS桶或OBS是否加密。 如果加密,请重新建一个不加密的OBS桶,即不要勾选“开启默认加密”。创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。 上传对象时不要勾选加密,OBS上传数据的详细操作请参见上传文件。
配置知识融合时,如何选择融合标识符和配置属性 知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 知识融合过程请见图2,融合过程说明请见表1。
什么是知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 知识融合过程请见图2,融合过程说明请见表1。
合,设置知识融合判断属性及相似度函数参数,完成新知识图谱的创建。 实体需要融合,因为有时候数据中会有多个实体对应现实世界中同一个事物,需要将这些实体合成一个。 父主题: 创建图谱
什么是本体 本体是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征以及事物间的关系。例如图1可称作一个本体。详情请见本体简介。 图1 本体 父主题: 管理本体
检查信息抽取函数和配置信息抽取时所填的参数。 知识图谱服务支持的信息抽取函数具体请参见信息抽取函数。配置信息抽取操作请参见配置信息抽取。 以创建一个有关于电影的知识图谱为例,抽取信息前后的实体信息如图1所示,展示如何在创建图谱时配置信息抽取。 图1 信息抽取 在“创建图谱”页面,单击“
XLSX、CSV、JSON格式的数据属于结构化数据。 本章节提供一个与电影有关的结构化数据样例,帮助您快速熟悉知识图谱的创建过程。此样例通过在控制台创建本体,完成信息抽取、信息映射、信息融合、图谱质检的配置,创建一个与电影有关的知识图谱。创建完成后,您可以搜索预览相关实体的知识图
果是否符合预期。 背景介绍 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 配置知识融合
使用自定义抽取模型创建图谱 本章节以有关于人物和电影的非结构化数据为例,提供一个使用自定义的信息抽取模型创建知识图谱的流程,帮助您快速熟悉使用非结构化数据和自定义信息抽取模型创建图谱的过程。 首先,请仔细阅读准备工作罗列的要求,提前完成准备工作。然后在控制台上创建信息抽取模型和知识图谱,步骤如下:
支持的数据包括XLSX、CSV、JSON、多行单句文本格式,详情请见数据格式要求,其中多行单句文本格式的数据属于非结构化数据。 本章节提供一个与人物、电影有关的非结构化数据自定义信息抽取模型并使用自定义抽取模型创建知识图谱的流程,帮助您快速熟悉知识图谱自定义信息抽取模型创建过程和
知识图谱的创建。 知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 知识融合过程请见图2,融合过程说明请见表1。
息抽取,您需要在创建知识图谱之前,创建信息抽取模型。 本章节提供一个与人物、电影有关的非结构化数据构建信息抽取模型流程,帮助您快速熟悉知识图谱自定义信息抽取模型创建过程,通过在控制台进行数据标注、模型训练,构建一个人物、电影有关的信息抽取模型。本样例以在ModelArts控制台上
验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。 训练数据量 训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。 训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。 三元组类型 本样例
OBS导入本体 通过OBS导入一个新的本体。 前提条件 将待导入的本体文件(json格式)上传至OBS中,详情请参见OBS添加桶和OBS上传文件或文件夹。 从OBS导入 登录KG服务管理控制台,在左侧菜单栏中选择“我的图谱资产库 > 我的本体”,进入“本体管理”页面。 在“本体管
体信息,新建一个新的本体。 此操作和编辑本体存在区别。编辑本体是在已有本体基础上修改本体信息,新的本体信息会覆盖原有本体信息。而本章节所介绍的修改本体操作是基于某一个图谱版本使用的本体来修改本体信息,快速新建一个新的本体;同时会基于新的本体和当前图谱版本的数据生成一个新的图谱版本。
xlsx格式,文件中每一个工作簿为一类数据,工作簿名为数据类型名。每个工作簿中,第一行为数据头,从第二行开始,每一行为一条数据。XLSX文件模板示例请单击下载。 CSV文件 该类型为结构化数据输入格式。使用CSV文件作为数据源时,首先需要把CSV文件上传至OBS的一个文件夹,构建图谱时,会读取该文件夹下所有以
MRC-BM-v2是一个非常简单的、基于BERT模型、端到端的关系抽取模型,它对于标注数据量的要求非常低,平均每个关系仅需要200组左右标注数据即可训练出一个较好(实测F1值在0.7左右)的模型,平均每个关系标注数据在2000左右模型训练效果达到一个峰值(实测F1值在0.8左
URI-scheme:表示用于传输请求的协议,当前所有API均采用HTTPS协议。 Endpoint:指定承载REST服务端点的服务器域名或IP,不同服务不同区域的Endpoint不同,您可以从地区和终端节点中获取终端节点。例如IAM服务在“华北-北京一”区域的Endpoint为“iam
AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Tok
沈振导演的电影的主演是谁 上一个实体 的 xx属性 它的上映日期 上一个实体 的 xx关系(正向) 他主演的电影 上一个实体 的 xx关系 的 xx关系(正向二跳关系) 她导演的电影的主演 上一个实体 和 xx实体 的关系 它和月光宝盒的关系 上一个实体 的 xx关系 的 xx属性(正向一跳关系的属性)