华为云首页用户手册

知识图谱 KG-快速创建知识图谱:步骤6：配置信息抽取

知识图谱 KG-快速创建知识图谱:步骤6：配置信息抽取

时间：2024-07-16 20:26:49

知识图谱 KG

步骤6：配置信息抽取

以两条数据为例，抽取信息前后的实体信息如图13所示，展示如何配置信息抽取。

图13 信息抽取
点击放大

在流水线构建页面，单击“信息抽取”，页面下方弹出“信息抽取”对话框，单击右侧按钮可以放大对话框。
在“信息抽取”对话框中，“抽取方式”默认为“结构化抽取”，“编辑方式”选择“交互界面”，关闭“默认抽取”开关。

在信息抽取页面填写信息抽取项，按表3填写。

表3 信息抽取项示例
实体类型	数据字段	字段函数
Person	identifier	${url}
	中文名	regexp_replace(${中文名}, '\(\[link\]@.?:(/film.?)\)', '')
	国籍	regexp_replace(${国籍}, '\(\[link\]@.?:(/film.?)\)', '')
	职业	${职业}
	出生日期	${出生日期}
	url	${url}
Film	identifier	${url}
	中文名	${中文名}
	票房	${票房}
	上映时间	${上映时间}
	导演	regexp_extract_all(${导演}, '\(\[link\]@.?:(/film.?)\)', 1)
	主演	regexp_extract_all(${主演}, '\(\[link\]@.?:(/film.?)\)', 1)
	url	${url}

字段函数主要有三类，示例如下：

${职业}
直接引用“职业”字段的值，不做任何操作。
regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '')
将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串，即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film.kg.huawei.com/中国/1122445)”抽取出信息“中国”。
regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
抽取出导演字段中，与模式 “\(\[link\]@.*?:(/film.*?)\)” 匹配的数据值，返回的类型是一个列表。例如““导演”:“沈倨([link]@沈倨:/film.kg.huawei.com/沈倨)"”，抽取信息后为““导演”:“/film.kg.huawei.com/沈倨"”。

填写完“信息抽取项”，单击“确定”，完成信息抽取配置。

填写完信息后，单击“保存”。

上一篇：知识图谱 KG-快速创建知识图谱:步骤4：配置数据源

下一篇：知识图谱 KG-快速创建知识图谱:步骤4：配置数据源

华为云11.11 2核1G 2M 云服务器

29元/年

立即注册领万元上云礼券

抽奖赢11111元免单

续费同价 L实例 2核2G 4M

98元/年

热门域名 1元随心购

1元/年

知识图谱 KG-快速创建知识图谱:步骤6：配置信息抽取

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题