知识图谱 KG-创建模型:训练数据类型介绍

时间:2023-11-01 16:18:25

训练数据类型介绍

在创建抽取模型时,需要您提前准备训练数据上传至OBS目录。KG服务当前支持的数据类型包括“Dataset”“Brat”“ModelArts”

  • Dataset

    DATASET数据需要用户指定的文件夹中包含两个指定格式与名称的文件:schema.json和train_data.json。前者用来指定需要抽取的关系三元组类型,后者用来存放所有的标注数据。

    schema.json一行一句json字符串,表示一种关系三元组类型:“predicate”表示谓词,“subject”表示主语类型,“object”表示宾语类型。例如:

    {"predicate": "出生地", "subject": "人物", "object": "地点"}

    train_data.json一行一句json字符串,表示一条标注数据。其中“text”是文本,“spo_list”是spo三元组的list,每个spo三元组包含7个元素,“predicate”为三元组谓词,“object_type”为宾语类型,“subject_type”为主语类型,“object_position”为宾语在文中出现的位置,“subject_position”为主语在文中出现的位置,“object”为宾语词,“subject”为主语词。例如:

    {"text":"比如钱钟书和杨绛、鲁迅和许广平都只有一个子女","spo_list":[{"predicate":"妻子","object_type":"人物","subject_type":"人物","object":"杨绛","subject":"钱钟书","subject_position":2,"object_position":6},{"predicate":"丈夫","object_type":"人物","subject_type":"人物","object":"钱钟书","subject":"杨绛","subject_position":6,"object_position":2}]}
  • Brat

    BRAT是一个开源的文本标注工具,主要用于对文本的结构化标注,您可以前往官网下载。KG服务的预置模型框架支持直接利用BRAT关系三元组标注的结果来训练模型。注意您的标注任务仅限于BRAT的关系三元组标注,而且不要使用BRAT标注系统中的高级内容(如定义关系的自反性、传递性等)。

    一个典型的BRAT文本标注结果文件夹包含如下文件:annotation.conf,file.txt,file.ann。其中annotation.conf是BRAT标注配置文件,file.txt是待标注文本文件,可以有多个,每个文本文件都有一个同名的file.ann文件作为标注结果文件。

    Annotation.conf:配置文件需要满足BRAT标注系统的要求,一个典型的配置文件如下:

    [entities]人物Date图书作品[relations]出生日期 Arg1:人物,Arg2:Date作者     Arg1:图书作品,Arg2:人物[events][attributes]

    File.ann:用户上传文本文件同名的标注结果文件,上面标注后结果文件一般如下:

    历史人物 54151 54153  蔡京T3153   Text 54181 54183    北宋人物 54151 54153 蔡京T3155   Date 54154 54164    1047年2月14日朝代 Arg1:T3152 Arg2:T3153出生日期 Arg1:T3154 Arg2:T3155
support.huaweicloud.com/usermanual-kg/kg_01_0024.html