检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
非结构化抽取 前提条件 已创建图谱并选择图谱规格,请参见购买知识图谱。 已创建并选择本体,详情请参见配置图谱本体。 已完成数据源配置,详情请参见配置数据源。 如果选择使用自己自定义模型,您需要在创建知识图谱之前,自定义用于信息抽取的模型,具体操作请见自定义信息抽取模型。 操作步骤
非结构化数据创建图谱 创建图谱简介 创建信息抽取模型 使用自定义抽取模型创建图谱
详情请见数据格式要求,其中多行单句文本格式的数据属于非结构化数据。 本章节提供一个与人物、电影有关的非结构化数据自定义信息抽取模型并使用自定义抽取模型创建知识图谱的流程,帮助您快速熟悉知识图谱自定义信息抽取模型创建过程和使用非结构化数据创建图谱的过程。步骤如下: 创建信息抽取模型
split(字段, string pattern) 将字段值以pattern为分隔符分割,得到一个列表。pattern可以是一个正则表达式,所有与pattern匹配的子串都作为分隔符。 split(${roles}, ', ') "roles":"role1,role2" ["role1"
string pattern, int index) 提取出字段值中与正则表达式pattern匹配的子串。第三个参数index为可选参数,表示获取正则表达式匹配到的第index个捕获组。注意,index=0表示返回整个匹配的子串,index=1表示返回第一个捕获组。 regexp_extract_all(${info}
在“我的图谱”页面,单击已创建图谱的名称,进入图谱详情页面,包含信息如图1所示。 图1 图谱详情 单击“预览图谱”,选择匹配方式: 选择“完全匹配”,输入“实体名称”,按回车进入图谱预览页面,预览该实体的知识图谱。 选择“模糊匹配”,输入实体名称部分字段,按回车进入图谱预览页面,预览实体名称含该字段的所有实体的知识图谱。
系统内置模板 当用户问题对应的匹配模板的类型为系统内置模板(SYS_TEMPLATE)时,可参考系统内置模板列表。 表1 系统内置模板列表 模板 举例说明 实体名称 月光宝盒 xx实体 + 呢 月光宝盒呢 xx实体 的 xx属性 月光宝盒的上映时间 xx实体属性 + 呢 上映时间呢
在“我的图谱”页面,单击已创建图谱的名称,进入图谱详情页面。 图1 图谱详情 单击“预览图谱”,选择匹配方式: 图2 选择匹配方式 选择“完全匹配”,输入“实体名称”,按回车进入图谱预览页面,预览该实体的知识图谱。 选择“模糊匹配”,输入实体名称部分字段,按回车进入图谱预览页面,预览实体名称含该字段的所有实体的知识图谱。
直接引用“职业”字段的值,不做任何操作。 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film
创建信息抽取模型 如果您在创建知识图谱时,选择使用自定义模型进行信息抽取,您需要在创建知识图谱之前,创建信息抽取模型。 本章节提供一个与人物、电影有关的非结构化数据构建信息抽取模型流程,帮助您快速熟悉知识图谱自定义信息抽取模型创建过程,通过在控制台进行数据标注、模型训练,构建一个人物、电影有关
使用自定义抽取模型创建图谱 本章节以有关于人物和电影的非结构化数据为例,提供一个使用自定义的信息抽取模型创建知识图谱的流程,帮助您快速熟悉使用非结构化数据和自定义信息抽取模型创建图谱的过程。 首先,请仔细阅读准备工作罗列的要求,提前完成准备工作。然后在控制台上创建信息抽取模型和知识图谱,步骤如下:
直接引用“职业”字段的值,不做任何操作。 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film
单击页面上方的问答模板配置,切换至“问答模板配置”页面。 单击“测试”,在对话框中输入问题,然后单击“测试”。 会立即显示“返回结果”,包括问题的“匹配模板”、“匹配元素”、“匹配分数”、“条件得分”、“元素得分”和“模板得分”。 单击操作列的“查看详情”,可查看json格式的结果。 父主题: 配置问答模板
同义词:概念的同义词,比如概念“电影”的同义词可配置为“影片”、“片子”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片的主演是谁”相似度计算时,本体“电影”所占比例大小。 实体实例权重:匹配问答与配置元素的近似度时,该元素对应实例所占比例。例如问答“不止英雄影
match_type String 用户问题对应的匹配模板的类型,取值:系统内置模板(SYS_TEMPLATE),详情请参见系统内置模板。 template_id String 用户问题对应的匹配模板的ID。 template_name String 用户问题对应的匹配模板的名称。 template_score
试”,针对当前配置的问答模板进行问答测试。 在对话框中输入“问题”,然后单击“测试”。 会立即显示“返回结果”,包括问题的“匹配模板”、“匹配元素”、“匹配分数”、“条件得分”、“元素得分”和“模板得分”。 单击操作列的“查看详情”,可查看json格式的结果。 后续操作 创建问答
信息抽取是从基础数据中抽取待创建图谱的实体、属性信息以及实体间的相互关系。目的是从原始数据(包括结构化数据或非结构化数据)中抽取结构化的信息。 配置方式 信息抽取分为结构化抽取和非结构化抽取,其适用范围和抽取方式如表1所示。 表1 配置方式说明 配置方式 适用范围 具体方式 操作指引
信息抽取是从基础数据中抽取待创建图谱的实体、属性信息以及实体间的相互关系。目的是从原始数据(包括结构化数据或非结构化数据)中抽取结构化的信息。 配置方式 信息抽取分为结构化抽取和非结构化抽取,其适用范围和抽取方式如表1所示。 表1 配置方式说明 配置方式 适用范围 具体方式 操作指引
图说KG 立即使用 成长地图 由浅入深,带您玩转KG 01 了解 了解华为云知识图谱的功能、基础知识和创建图谱的流程,有助于您更准确地匹配实际业务,一站式构建知识图谱。 产品介绍 什么是KG KG适用场景 KG基本知识 如何访问KG 03 实践 通过提供针对性场景的知识数据样
直接引用“职业”字段的值,不做任何操作。 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film