知识图谱 KG-使用公有资产库中的图谱流水线套件构建图谱:步骤1:准备数据
步骤1:准备数据
在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。
由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下:
数据格式
数据格式为短文本txt格式,文件内容示例如下:
张三的生日是1990年1月1日,身高175cm,出生于北京。
李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。
... ...
数据划分
训练数据:80%数据用于训练信息抽取模型。
验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。
训练数据量
训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。
训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。
三元组类型
本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。
subject_type |
predicate |
object_type |
---|---|---|
人物 |
毕业院校 |
学校 |
影视作品 |
改编自 |
作品 |
影视作品 |
制片人 |
人物 |
人物 |
身高 |
Number |
人物 |
丈夫 |
人物 |
影视作品 |
主演 |
人物 |
人物 |
出生日期 |
Date |
影视作品 |
编剧 |
人物 |
影视作品 |
导演 |
人物 |
人物 |
祖籍 |
地点 |
人物 |
父亲 |
人物 |
人物 |
出生地 |
地点 |
影视作品 |
出品公司 |
企业 |
人物 |
妻子 |
人物 |
人物 |
母亲 |
人物 |
人物 |
国籍 |
国家 |
影视作品 |
上映时间 |
Date |
- 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”。
- 登录OBS服务,创建桶和文件夹,用于存放数据集。
创建名称为“model-data”的文件夹用于存放未标注的数据集。
创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。
创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。
创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。
- 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。