盘古大模型 PANGULARGEMODELS-数据工程介绍:平台支持的数据类型

时间:2024-12-03 10:24:59

平台支持的数据类型

ModelArts Studio大模型开发平台支持的数据类型见表1

表1 平台支持的数据类型

数据类型

数据内容

数据文件格式要求

文本类

文档

支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求

网页

支持html,详见文本类数据集格式要求

预训练文本

支持jsonl,详见文本类数据集格式要求

单轮问答

支持jsonl、csv,详见文本类数据集格式要求

单轮问答(人设)

支持jsonl、csv,详见文本类数据集格式要求

多轮问答

支持jsonl,详见文本类数据集格式要求

多轮问答(人设)

支持jsonl,详见文本类数据集格式要求

问答排序

支持jsonl、csv,详见文本类数据集格式要求

图片类

图片

支持图片、tar,详见图片类数据集格式要求

图片+Caption

图片支持tar,Caption支持jsonl,详见图片类数据集格式要求

图片+QA对

图片支持tar,QA对支持jsonl,详见图片类数据集格式要求

视频类

视频

支持mp4、avi,详见视频类数据集格式要求

气象类

海洋气象

支持nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2,详见气象类数据集格式要求

预测类

时序

支持csv,详见预测类数据集格式要求

回归分类

支持csv,详见预测类数据集格式要求

其他类

用户自定义

支持构建CV场景中包含图片和标注文件的图像分类数据集,如图片+CV标注、视频+CV标注等类型,详见其他类数据集格式要求

support.huaweicloud.com/usermanual-pangulm/pangulm_04_0016.html