盘古大模型 PANGULARGEMODELS-数据工程介绍:平台支持的数据类型
平台支持的数据类型
ModelArts Studio大模型开发平台支持的数据类型见表1。
数据类型 |
数据内容 |
数据文件格式要求 |
---|---|---|
文本类 |
文档 |
支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求。 |
网页 |
支持html,详见文本类数据集格式要求。 |
|
预训练文本 |
支持jsonl,详见文本类数据集格式要求。 |
|
单轮问答 |
支持jsonl、csv,详见文本类数据集格式要求。 |
|
单轮问答(人设) |
支持jsonl、csv,详见文本类数据集格式要求。 |
|
多轮问答 |
支持jsonl,详见文本类数据集格式要求。 |
|
多轮问答(人设) |
支持jsonl,详见文本类数据集格式要求。 |
|
问答排序 |
支持jsonl、csv,详见文本类数据集格式要求。 |
|
图片类 |
图片 |
支持图片、tar,详见图片类数据集格式要求。 |
图片+Caption |
图片支持tar,Caption支持jsonl,详见图片类数据集格式要求。 |
|
图片+QA对 |
图片支持tar,QA对支持jsonl,详见图片类数据集格式要求。 |
|
视频类 |
视频 |
支持mp4、avi,详见视频类数据集格式要求。 |
气象类 |
海洋气象 |
支持nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2,详见气象类数据集格式要求。 |
预测类 |
时序 |
支持csv,详见预测类数据集格式要求。 |
回归分类 |
支持csv,详见预测类数据集格式要求。 |
|
其他类 |
用户自定义 |
支持构建CV场景中包含图片和标注文件的图像分类数据集,如图片+CV标注、视频+CV标注等类型,详见其他类数据集格式要求。 |