知识图谱 KG-创建信息抽取模型:步骤1：准备数据

时间：2025-02-12 14:54:13

知识图谱 KG

在创建信息抽取模型之前，您需要自行准备基础数据并上传至OBS桶及文件夹中。

由于数据安全原因，本样例不提供具体的样例数据，仅提供样例数据要求，要求如下：

数据格式

数据格式为短文本txt格式，文件内容示例如下：

张三的生日是1990年1月1日，身高175cm，出生于北京。

李四，著名导演，毕业于电影学院，代表作有《电影1》、《电影2》。

... ...

数据划分

训练数据：80%数据用于训练信息抽取模型。

验证数据：20%数据用于验证信息抽取模型性能（即F1、P、R性能指标）。

训练数据量

训练一个基本可用的模型，标注数据量总数需要大于模型版本配置中的“batch_size”，且需大于20*三元组类型数量。

训练一个效果较好的模型，建议提供2万条以上的短句数据作为训练数据。

三元组类型

本样例构建的模型适用于人物、电影领域的信息抽取，限定抽取的三元组类型如表1所示。

按上文要求准备待标注的训练数据和模型数据，并保存至本地，训练数据命名为“annotation.txt”，模型数据命名为“corpus.txt”。
登录OBS服务，创建桶和文件夹，用于存放数据集。
创建名称为“kg-model”的OBS桶。

创建名称为“model-data”的文件夹用于存放未标注的数据集。

创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。

创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。

创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问，请务必保证创建的OBS桶与KG服务在同一区域，桶的存储类别为“标准存储”。
参考上传文件，使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下，将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。