AI开发平台ModelArts-准备数据:自定义数据

时间:2025-02-12 15:14:08

自定义数据

用户也可以自行准备训练数据。数据要求如下:

使用标准的.json格式的数据,通过设置--json-key来指定需要参与训练的列。

请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称,默认为text。在维基百科数据集中,它有四列,分别是id、url、title和text。可以指定–json-key标志来选择用于训练的列。

{    'id': '1',    'url': 'https://simple.wikipedia.org/wiki/April',    'title': 'April',    'text': 'April is the fourth month...'}                     
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1834.html