知识图谱 KG-使用公有资产库中的图谱流水线套件构建图谱:步骤1:准备数据

时间:2024-07-16 20:27:11

步骤1:准备数据

在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。

由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下:

数据格式

数据格式为短文本txt格式,文件内容示例如下:

张三的生日是1990年1月1日,身高175cm,出生于北京。

李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。

... ...

数据划分

训练数据:80%数据用于训练信息抽取模型。

验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。

训练数据量

训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。

训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。

三元组类型

本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。

表1 三元组类型

subject_type

predicate

object_type

人物

毕业院校

学校

影视作品

改编自

作品

影视作品

制片人

人物

人物

身高

Number

人物

丈夫

人物

影视作品

主演

人物

人物

出生日期

Date

影视作品

编剧

人物

影视作品

导演

人物

人物

祖籍

地点

人物

父亲

人物

人物

出生地

地点

影视作品

出品公司

企业

人物

妻子

人物

人物

母亲

人物

人物

国籍

国家

影视作品

上映时间

Date

  1. 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”
  2. 登录OBS服务,创建桶和文件夹,用于存放数据集。

    创建名称为“kg-model”的OBS桶。

    创建名称为“model-data”的文件夹用于存放未标注的数据集。

    创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。

    创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。

    创建OBS桶和文件夹的操作指导请参见创建桶新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。

  3. 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”
support.huaweicloud.com/bestpractice-kg/kg_04_0006.html