知识图谱 KG-快速创建知识图谱:步骤6:配置信息抽取
步骤6:配置信息抽取
以两条数据为例,抽取信息前后的实体信息如图13所示,展示如何配置信息抽取。
- 在流水线构建页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。
- 在“信息抽取”对话框中,“抽取方式”默认为“结构化抽取”,“编辑方式”选择“交互界面”,关闭“默认抽取”开关。
- 在信息抽取页面填写信息抽取项,按表3填写。
表3 信息抽取项示例 实体类型
数据字段
字段函数
Person
identifier
${url}
中文名
regexp_replace(${中文名}, '\(\[link\]@.*?:(/film.*?)\)', '')
国籍
regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '')
职业
${职业}
出生日期
${出生日期}
url
${url}
Film
identifier
${url}
中文名
${中文名}
票房
${票房}
上映时间
${上映时间}
导演
regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
主演
regexp_extract_all(${主演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
url
${url}
字段函数主要有三类,示例如下:
- ${职业}
- regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '')
将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film.kg.huawei.com/中国/1122445)”抽取出信息“中国”。
- regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
抽取出导演字段中,与模式 “\(\[link\]@.*?:(/film.*?)\)” 匹配的数据值,返回的类型是一个列表。例如““导演”:“沈倨([link]@沈倨:/film.kg.huawei.com/沈倨)"”,抽取信息后为““导演”:“/film.kg.huawei.com/沈倨"”。
填写完“信息抽取项”,单击“确定”,完成信息抽取配置。
- 填写完信息后,单击“保存”。